Criar um cluster com o Hudi instalado - Amazon EMR

Criar um cluster com o Hudi instalado

Nas versões 5.28.0 e posteriores, o Amazon EMR instala os componentes do Hudi por padrão quando o Spark, o Hive, ou o Presto está instalado. Para usar o Hudi no Amazon EMR, crie um cluster com uma ou mais das seguintes aplicações instaladas:

  • Hadoop

  • Hive

  • Spark

  • Presto

  • Flink

É possível criar um cluster usando o Console de gerenciamento da AWS, a AWS CLI ou a API do Amazon EMR.

  1. Navegue até o novo console do Amazon EMR e selecione Alternar para o console antigo na navegação lateral. Para obter mais informações sobre o que esperar ao alternar para o console antigo, consulte Usar o console antigo.

  2. Escolha Create cluster (Criar cluster), Go to advanced options (Ir para opções avançadas).

  3. Em Configuração de software, escolha emr-5.28.0 ou posterior para Versão e selecione Hadoop, Hive, Spark, Presto e Tez, juntamente com outras aplicações que são necessárias para seu cluster.

  4. Configure outras opções conforme necessário para seu aplicativo e escolha Next (Avançar).

  5. Configure as opções de Hardware e as General cluster settings (Configurações gerais do cluster) conforme desejado.

  6. Em Security Options (Opções de segurança), recomendamos que você selecione um EC2 key pair (Par de chaves do EC2) que possa ser usado para a conexão com a linha de comando do nó principal usando SSH. Isso permite que você execute os comandos do shell do Spark, os comandos da CLI do Hive e os comandos da CLI do Hudi descritos neste guia.

  7. Configure outras opções de segurança conforme desejado e escolha Create cluster (Criar cluster).