Carregar dados usando o AWS DataSync - Amazon EMR

Carregar dados usando o AWS DataSync

O AWS DataSync é um serviço de transferência de dados on-line que simplifica, automatiza e acelera o processo de movimentação de dados entre armazenamento on-premises e serviços de armazenamento da AWS ou entre serviços de armazenamento da AWS. O DataSync oferece suporte a uma variedade de sistemas de armazenamento on-premises, como Sistema de Arquivos Distribuído do Hadoop (HDFS), servidores de arquivos NAS e armazenamento de objetos autogerenciado.

A maneira mais comum de colocar dados em um cluster é carregar os dados no Amazon S3 e usar os atributos integrados do Amazon EMR para carregar os dados no cluster.

O DataSync pode ajudar você a realizar estas tarefas:

  • Replicar o HDFS no cluster do Hadoop para o Amazon S3 para continuidade dos negócios

  • Copiar o HDFS no Amazon S3 para preencher data lakes

  • Transferir dados entre o HDFS do cluster do Hadoop e o Amazon S3 para análise e processamento

Para carregar dados no bucket do S3, primeiro implante um ou mais agentes do DataSync na mesma rede do armazenamento on-premises. O agente é uma máquina virtual (VM) usada para ler ou gravar dados em um local autogerenciado. Em seguida, ative os agentes no bucket do S3 na Conta da AWS e na Região da AWS em que ele está localizado.

Depois que o agente é ativado, crie um local de origem para o armazenamento on-premises, um local de destino para o bucket do S3 e uma tarefa. Uma tarefa é um conjunto de dois locais (origem e destino) e um conjunto de opções padrão que você usa para controlar o comportamento da tarefa.

Por fim, execute sua tarefa dp DataSync para transferir dados da origem para o destino.

Para obter mais informações, consulte Conceitos básicos do AWS DataSync.