As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Carregar dados com AWS DataSync
<a name="emr-plan-upload-datasync"></a>

AWS DataSync é um serviço de transferência de dados on-line que simplifica, automatiza e acelera o processo de movimentação de dados entre seus serviços de armazenamento e armazenamento locais ou entre serviços AWS de armazenamento. AWS DataSync oferece suporte a uma variedade de sistemas de armazenamento local, como Hadoop Distributed File System (HDFS), servidores de arquivos NAS e armazenamento autogerenciado de objetos.

A maneira mais comum de colocar dados em um cluster é carregar os dados no Amazon S3 e usar os atributos integrados do Amazon EMR para carregar os dados no cluster.

DataSync pode ajudá-lo a realizar as seguintes tarefas:
+ Replicar o HDFS no cluster do Hadoop para o Amazon S3 para continuidade dos negócios
+ Copiar o HDFS no Amazon S3 para preencher data lakes
+ Transferir dados entre o HDFS do cluster do Hadoop e o Amazon S3 para análise e processamento

Para fazer upload de dados para seu bucket do S3, primeiro você implanta um ou mais DataSync agentes na mesma rede do seu armazenamento local. O *agente* é uma máquina virtual (VM) usada para ler ou gravar dados em um local autogerenciado. Em seguida, você ativa seus agentes no bucket do S3 Conta da AWS e Região da AWS onde ele está localizado.

Depois que o agente é ativado, crie um local de origem para o armazenamento on-premises, um local de destino para o bucket do S3 e uma tarefa. Uma *tarefa* é um conjunto de dois locais (origem e destino) e um conjunto de opções padrão que você usa para controlar o comportamento da tarefa.

Finalmente, você executa sua DataSync tarefa de transferir dados da origem para o destino. 

Para obter mais informações, consulte [Conceitos básicos do AWS DataSync](https://docs.aws.amazon.com/datasync/latest/userguide/getting-started.html).