Inicialização de clusters em uma VPC com o Amazon EMR - Amazon EMR

Inicialização de clusters em uma VPC com o Amazon EMR

Depois de ter uma sub-rede configurada para hospedar clusters do Amazon EMR, inicie o cluster nessa sub-rede especificando o identificador de sub-rede associado ao criar o cluster.

nota

O Amazon EMR oferece suporte a sub-redes privadas nas versões 4.2 e superiores.

Quando o cluster é iniciado, o Amazon EMR adiciona grupos de segurança conforme o tipo de sub-redes da VPC (públicas ou privadas) em que o cluster é iniciado. Todos os grupos de segurança permitem a entrada na porta 8443 para comunicação com o serviço do Amazon EMR, mas os intervalos de endereços IP variam para sub-redes públicas e privadas. O Amazon EMR gerencia todos esses grupos de segurança e talvez precise adicionar outros endereços IP ao intervalo da AWS com o passar do tempo. Para obter mais informações, consulte Controle do tráfego de rede com grupos de segurança para o cluster do Amazon EMR.

Para gerenciar o cluster em uma VPC, o Amazon EMR anexa um dispositivo de rede ao nó primário e o administra nesse dispositivo. Você pode visualizar este dispositivo usando a ação de API do Amazon EC DescribeInstances. Se esse dispositivo for modificado de qualquer maneira, o cluster poderá falhar.

Console
Para iniciar um cluster em uma VPC usando o console
  1. Faça login no Console de gerenciamento da AWS e abra o console do Amazon EMR em https://console.aws.amazon.com/emr.

  2. Em EMR no EC2, no painel de navegação esquerdo, escolha Clusters e depois Criar cluster.

  3. Em Redes, acesse o campo Nuvem privada virtual (VPC). Insira o nome da VPC ou escolha Procurar para selecionar a VPC. Como alternativa, escolha Criar VPC para criar uma VPC que você possa usar com o cluster.

  4. Escolha qualquer outra opção que se aplique ao cluster.

  5. Para iniciar o cluster, escolha Criar cluster.

AWS CLI
Iniciar um cluster em uma VPC usando a AWS CLI
nota

A AWS CLI não fornece uma maneira de criar uma instância NAT automaticamente e de conectá-la à sua sub-rede privada. No entanto, para criar um endpoint do S3 na sua sub-rede, você pode usar os comandos da CLI da Amazon VPC. Use o console para criar instâncias NAT e executar clusters em uma sub-rede privada.

Depois que a VPC estiver configurada, você poderá criar clusters do Amazon EMR usando o subcomando create-cluster com o parâmetro --ec2-attributes. Use o parâmetro --ec2-attributes para especificar a sub-rede VPC do seu cluster.

  • Para criar um cluster em uma sub-rede específica, digite o comando a seguir, substitua myKey pelo nome do par de chaves do Amazon EC2 e substitua 77XXXX03 pelo ID da sub-rede.

    aws emr create-cluster --name "Test cluster" --release-label emr-4.2.0 --applications Name=Hadoop Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey,SubnetId=subnet-77XXXX03 --instance-type m5.xlarge --instance-count 3

    Quando você especifica a contagem de instâncias sem usar o parâmetro --instance-groups, um único nó primário é executado, e as instâncias restantes são executadas como nós centrais. Todos os nós usam o tipo de instância especificado no comando.

    nota

    Se você não tiver criado anteriormente o perfil de serviço do Amazon EMR padrão e o perfil de instância do EC2, digite aws emr create-default-roles para criá-los antes de digitar o subcomando create-cluster.

Garantia de endereços IP disponíveis para um cluster do EMR no EC2

Para garantir que uma sub-rede com endereços IP livres suficientes esteja disponível ao iniciar, a seleção de sub-rede do EC2 verifica a disponibilidade de IP. O processo de criação usa uma sub-rede com a contagem necessária de endereços IP para iniciar os nós centrais, primários e de tarefas conforme necessário, mesmo que, na criação inicial, somente os nós centrais do cluster sejam criados. O EMR verifica o número de endereços IP necessários para iniciar os nós primários e de tarefas durante a criação, além de calcular separadamente o número de endereços IP necessários para iniciar os nós centrais. O número mínimo de instâncias ou nós primários e de tarefas necessários é determinado automaticamente pelo Amazon EMR.

Importante

Se nenhuma sub-rede na VPC tiver IPs disponíveis suficientes para acomodar os nós essenciais, um erro será retornado e o cluster não será criado.

Na maioria dos casos de implantação, há uma diferença de tempo entre cada lançamento dos nós centrais, primários e de tarefas. Além disso, é possível que vários clusters compartilhem uma sub-rede. Nesses casos, a disponibilidade do endereço IP pode flutuar e os lançamentos subsequentes dos nós de tarefas, por exemplo, podem ser limitados pelos endereços IP disponíveis.