Segurança Envio de trabalho para o Pyspark Armazenamento Integração com o metastore Depuração Solução de problemas do Amazon EMR no EKS Posicionamento de nó desempenho Otimização de custos Usando AWS Outposts

Links para o Amazon EMR nos guias de melhores práticas do EKS sobre GitHub

Desenvolvemos o Guia de práticas recomendadas do Amazon EMR no EKS com a colaboração da comunidade de código aberto para que fosse possível iterar rapidamente e fornecer recomendações sobre aspectos de criação e execução de um cluster virtual. Recomendamos usar o Guia de práticas recomendadas do Amazon EMR no EKS para as seções. Escolha os links em cada seção para acessar o GitHub site.

Segurança

nota

Para obter mais informações sobre segurança com o Amazon EMR no EKS, consulte Práticas recomendadas de segurança para o Amazon EMR no EKS.

Práticas recomendadas de criptografia: descreve como usar a criptografia para dados em repouso e em trânsito.

O gerenciamento da segurança da rede descreve como configurar grupos de segurança para pods do Amazon EMR no EKS ao se conectar a fontes de dados hospedadas em Serviços da AWS , como o Amazon RDS e o Amazon Redshift.

Usando o gerenciador de AWS segredos para armazenar segredos.

Envio de trabalho para o Pyspark

Envio de trabalho para o Pyspark: especifica diferentes tipos de empacotamentos para as aplicações do PySpark usando formatos de empacotamento como zip, egg, wheel e pex.

Armazenamento

Uso de volumes do EBS: descreve como usar o provisionamento estático e dinâmico para trabalhos que precisam de volumes do EBS.

Usando volumes do Amazon FSx for Luster: como usar o provisionamento estático e dinâmico para trabalhos que precisam de volumes do Amazon FSx for Luster.

Uso de volumes de armazenamento de instância: descreve como usar volumes de armazenamento de instância para o processamento de trabalhos.

Integração com o metastore

Uso do Hive Metastore: oferece diferentes maneiras de usar o Hive Metastore.

Usando o AWS Glue: oferece maneiras diferentes de configurar o catálogo do AWS Glue.

Depuração

Uso da depuração do Spark: descreve como alterar o nível de log.

Conexão com a interface do usuário do Spark no pod do driver.

Como usar o servidor de histórico do Spark de hospedagem própria com o Amazon EMR no EKS.

Solução de problemas do Amazon EMR no EKS

Solução de problemas.

Posicionamento de nó

Uso de seletores de nó do Kubernetes para single-az e outros casos de uso.

Uso do posicionamento de nó do Fargate.

desempenho

Uso da alocação dinâmica de recursos (DRA).

Por padrão, spark.dynamicAllocation.preallocateExecutors está habilitado no Amazon EMR Spark. Quando spark.dynamicAllocation.initialExecutors e quando não spark.dynamicAllocation.minExecutors estão configurados, o Spark pode solicitar um grande número de executores na inicialização com base na contagem estimada de tarefas, mesmo para cargas de trabalho pequenas. Para evitar a agitação excessiva de contêineres, use uma das seguintes abordagens:

spark.dynamicAllocation.minExecutorsDefina spark.dynamicAllocation.initialExecutors ou para um valor apropriado para o tamanho da sua carga de trabalho.
spark.dynamicAllocation.preallocateExecutors.maxEstimatedTasksDefina com um valor menor para limitar o número de executores solicitados na inicialização.
spark.dynamicAllocation.preallocateExecutorsDefina como false para desativar totalmente a pré-alocação do executor.

Práticas recomendadas do EKS para o plug-in Container Network Interface (CNI) da Amazon VPC, o Cluster Autoscaler e o CoreDNS.

Otimização de custos

Uso de instâncias spot: práticas recomendadas para instâncias spot do Amazon EC2 e como usar o recurso de desativação de nó do Spark.

Usando AWS Outposts

Executando o Amazon EMR no EKS usando AWS Outposts

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conceitos básicos do Amazon EMR no EKS

Personalização de imagens do Docker