

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Escolhendo o armazenamento certo
<a name="storage"></a>

Configure os [tipos de instância e a capacidade](capacity.md) do seu cluster. Os nós principais e de tarefas precisam de processamento e poder computacional, mas somente os nós principais armazenam dados. Selecione o tipo de armazenamento mais econômico para seus nós principais.

Ao usar o Amazon EMR para processar grandes quantidades de dados, você tem várias opções para mover dados do Amazon S3. A melhor opção depende da sua carga de trabalho. As seções a seguir fornecem alguns pontos importantes a serem considerados ao decidir qual tipo de armazenamento é a escolha certa para você.

## Sistema de arquivos distribuídos Hadoop
<a name="hdfs"></a>

O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído, escalável e portátil para o Hadoop. Uma vantagem do HDFS é o reconhecimento de dados entre os nós de clusters do Hadoop que gerenciam os clusters e os nós de cluster do Hadoop que gerenciam as etapas individuais.

## Quando usar o HDFS no Amazon EMR
<a name="hdfs-in-emr"></a>

Quando você tem leituras iterativas no mesmo conjunto de dados ou cargas de trabalho intensivas de E/S de disco, você pode usar o HDFS para armazenar em cache resultados intermediários e como armazenamento dinâmico para processar dados. O HDFS é efêmero, o que significa que ele é recuperado quando as instâncias são encerradas.

### Sistema de arquivos EMR
<a name="emrfs"></a>

O EMR File System (EMRFS) é uma implementação do HDFS que os clusters do Amazon EMR normalmente usam para ler e gravar arquivos regulares do Amazon EMR diretamente no Amazon S3.

Você pode usar o EMRFS ao ler o conjunto de dados uma vez em cada execução. O EMRFS separa o armazenamento da computação, para que você não precise provisionar nós principais especificamente para armazenar dados e não precise pagar pela replicação de dados no HDFS. Isso resulta em custos mais baixos e fornece disponibilidade dos dados para vários clusters. Você também tem a vantagem de reter dados depois de desligar o cluster.