Carregar dados usando o AWS DataSync
O AWS DataSync é um serviço de transferência de dados on-line que simplifica, automatiza e acelera o processo de movimentação de dados entre armazenamento on-premises e serviços de armazenamento da AWS ou entre serviços de armazenamento da AWS. O DataSync oferece suporte a uma variedade de sistemas de armazenamento on-premises, como Sistema de Arquivos Distribuído do Hadoop (HDFS), servidores de arquivos NAS e armazenamento de objetos autogerenciado.
A maneira mais comum de colocar dados em um cluster é carregar os dados no Amazon S3 e usar os atributos integrados do Amazon EMR para carregar os dados no cluster.
O DataSync pode ajudar você a realizar estas tarefas:
-
Replicar o HDFS no cluster do Hadoop para o Amazon S3 para continuidade dos negócios
-
Copiar o HDFS no Amazon S3 para preencher data lakes
-
Transferir dados entre o HDFS do cluster do Hadoop e o Amazon S3 para análise e processamento
Para carregar dados no bucket do S3, primeiro implante um ou mais agentes do DataSync na mesma rede do armazenamento on-premises. O agente é uma máquina virtual (VM) usada para ler ou gravar dados em um local autogerenciado. Em seguida, ative os agentes no bucket do S3 na Conta da AWS e na Região da AWS em que ele está localizado.
Depois que o agente é ativado, crie um local de origem para o armazenamento on-premises, um local de destino para o bucket do S3 e uma tarefa. Uma tarefa é um conjunto de dois locais (origem e destino) e um conjunto de opções padrão que você usa para controlar o comportamento da tarefa.
Por fim, execute sua tarefa dp DataSync para transferir dados da origem para o destino.
Para obter mais informações, consulte Conceitos básicos do AWS DataSync.