Escolhendo o hardware para seu cluster do Amazon EMR - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Escolhendo o hardware para seu cluster do Amazon EMR

Sayde Aguilar, Amiin Samatar e Diego Valencia, da Amazon Web Services ()AWS

Agosto de 2023 (histórico do documento)

O Amazon EMR é uma ferramenta para processamento de big data. Ele usa software de código aberto, especificamente ferramentas Apache, como Apache Spark e Apache Hudi. Além disso, oferece várias opções para configurar e usar um modelo de baixo custo. pay-as-you-go

Este guia explica como projetar seu cluster do Amazon EMR com base nessa elasticidade e fornece as melhores práticas a serem seguidas ao escolher o hardware.

Visão geral

O Amazon EMR foi criado usando o Apache Hadoop MapReduce, uma estrutura para processar grandes quantidades de dados. O Hadoop MapReduce processa os dados em clusters distribuídos ao mesmo tempo usando lógica paralela, o que significa que cada processo tem seu próprio processador. O Amazon EMR usa um cluster Hadoop de servidores virtuais estruturados no Amazon Elastic Compute Cloud (Amazon). EC2 Isso significa que todos os processos paralelos são feitos em computadores autônomos executados na Amazon Web Services (AWS).

Um cluster Hadoop é um tipo específico de cluster computacional usado para processar grandes quantidades de dados não estruturados usando ambientes paralelos ou distribuídos. Uma característica fundamental de um cluster Hadoop é que ele é altamente escalável e pode ser configurado para acelerar o processamento de dados. A escalabilidade é alcançada adicionando ou removendo nós para aumentar ou diminuir a taxa de transferência. Nos clusters do Hadoop, cada parte dos dados é copiada entre os nós do cluster, portanto, há quase zero perda de dados se um nó falhar.

No Amazon EMR, elasticidade se refere à capacidade de redimensionamento dinâmico. Você pode escalar automaticamente o cluster e fazer as alterações necessárias. Você não precisa confiar no design inicial do hardware.

Este guia explica como projetar seu cluster do Amazon EMR com base nessa elasticidade e fornece as melhores práticas a serem seguidas ao escolher o hardware.