Carregar dados comAWS DataSync

AWS DataSyncé um serviço de transferência de dados on-line que simplifica, automatiza e acelera o processo de movimentação de dados entre seus serviços de armazenamento e armazenamento locais ou entre serviços AWS de armazenamento. AWS DataSync oferece suporte a uma variedade de sistemas de armazenamento local, como Hadoop Distributed File System (HDFS), servidores de arquivos NAS e armazenamento autogerenciado de objetos.

A maneira mais comum de colocar dados em um cluster é carregar os dados no Amazon S3 e usar os atributos integrados do Amazon EMR para carregar os dados no cluster.

DataSync pode ajudá-lo a realizar as seguintes tarefas:

Replicar o HDFS no cluster do Hadoop para o Amazon S3 para continuidade dos negócios
Copiar o HDFS no Amazon S3 para preencher data lakes
Transferir dados entre o HDFS do cluster do Hadoop e o Amazon S3 para análise e processamento

Para carregar dados no seu bucket do S3, primeiro você implanta um ou mais DataSync agentes na mesma rede do seu armazenamento local. O agente é uma máquina virtual (VM) usada para ler ou gravar dados em um local autogerenciado. Em seguida, você ativa seus agentes no bucket do S3 Conta da AWS e Região da AWS onde ele está localizado.

Depois que o agente é ativado, crie um local de origem para o armazenamento on-premises, um local de destino para o bucket do S3 e uma tarefa. Uma tarefa é um conjunto de dois locais (origem e destino) e um conjunto de opções padrão que você usa para controlar o comportamento da tarefa.

Finalmente, você executa sua DataSync tarefa de transferir dados da origem para o destino.

Para obter mais informações, consulte Conceitos básicos do AWS DataSync.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Upload de dados no S3 Express One Zone

Importação de arquivos com o cache distribuído e o Amazon EMR