As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Recursos, requisitos e limites do EMR Studio
Este tópico inclui itens a serem considerados ao trabalhar com o Amazon EMR Studio, incluindo as considerações sobre as regiões e as ferramentas, os requisitos de cluster e as limitações técnicas.
Considerações
Considere o seguinte ao trabalhar com o EMR Studio:
-
O EMR Studio está disponível nas seguintes Regiões da AWS:
-
Leste dos EUA (Ohio) (us-east-2)
-
Leste dos EUA (Norte da Virgínia) (us-east-1)
-
Oeste dos EUA (Norte da Califórnia) (us-west-1)
-
Oeste dos EUA (Oregon) (us-west-2)
-
África (Cidade do Cabo) (af-south-1)
-
Ásia-Pacífico (Hong Kong) (ap-east-1)
-
Ásia-Pacífico (Jacarta) (ap-southeast-3)*
-
Ásia-Pacífico (Melbourne) (ap-southeast-4)*
-
Ásia-Pacífico (Mumbai) (ap-south-1)
-
Asia Pacific (Osaka) (ap-northeast-3)*
-
Ásia-Pacífico (Seul) (ap-northeast-2)
-
Ásia-Pacífico (Singapura) (ap-southeast-1)
-
Ásia-Pacífico (Sydney) (ap-southeast-2)
-
Ásia Pacific (Tóquio) (ap-northeast-1)
-
Canadá (Central) (ca-central-1)
-
Europa (Frankfurt) (eu-central-1)
-
Europa (Irlanda) (eu-west-1)
-
Europa (Londres) (eu-west-2)
-
UE (Milão) (eu-south-1)
-
Europa (Paris) (eu-west-3)
-
Europa (Espanha) (eu-south-2)
-
UE (Estocolmo) (eu-north-1)
-
Europa (Zurique) (eu-central-2)*
-
Israel (Tel Aviv) (il-central-1)*
-
Oriente Médio (EAU) (me-central-1)*
-
América do Sul (São Paulo) (sa-east-1)
-
AWS GovCloud (Leste dos EUA) (gov-us-east-1)
-
AWS GovCloud (Oeste dos EUA) (gov-us-west-1)
* Não há suporte para a interface do usuário ativa do Spark nessas regiões.
-
-
Para permitir que os usuários provisionem novos clusters do EMR em execução no Amazon EC2 para um Workspace, você pode associar um EMR Studio a um conjunto de modelos de cluster. Os administradores podem definir modelos de cluster com o Service Catalog e escolher se um usuário ou um grupo pode acessar os modelos de cluster, ou nenhum modelo de cluster, em um Studio.
-
Ao definir permissões de acesso aos arquivos de cadernos armazenados no Amazon S3 ou à leitura de segredos do AWS Secrets Manager, use o perfil de serviço do Amazon EMR. As políticas de sessão não são compatíveis com estas permissões.
-
Você pode criar diversos EMR Studios para controlar o acesso a clusters do EMR em diferentes VPCs.
-
Use a AWS CLI para configurar o Amazon EMR em clusters do EKS. Em seguida, é possível usar a interface do Studio para anexar clusters a Workspaces com um endpoint gerenciado para executar trabalhos de cadernos.
-
Há outras considerações ao usar a propagação de identidade confiável com o Amazon EMR que também se aplicam ao EMR Studio. Para obter mais informações, consulte Considerações e limitações do Amazon EMR com a integração do Centro de Identidade.
-
O EMR Studio não oferece suporte aos seguintes comandos mágicos do Python:
-
%alias -
%alias_magic -
%automagic -
%macro -
%%js -
%%javascript -
Modificar
proxy_userusando%configure -
Modificar
KERNEL_USERNAMEusando%envou%set_env
-
-
Os clusters do Amazon EMR no EKS não oferecem suporte a comandos Sparkmagic para o EMR Studio.
-
Para escrever instruções do Scala com várias linhas em células de cadernos, certifique-se de que todas as linhas, exceto a última, terminem com um ponto final. O exemplo a seguir usa a sintaxe adequada para instruções do Scala com várias linhas.
val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50) Para aumentar a segurança das aplicações fora do console que podem ser usadas com o Amazon EMR, os domínios de hospedagem das aplicações são registrados na Public Suffix List (PSL). Exemplos desses domínios de hospedagem incluem os seguintes:
emrstudio-prod.us-east-1.amazonaws.com,emrnotebooks-prod.us-east-1.amazonaws.com,emrappui-prod.us-east-1.amazonaws.com. Para maior segurança, se precisar definir cookies confidenciais no nome de domínio padrão, recomendamos que você use cookies com um prefixo__Host-. Isso ajuda a defender seu domínio contra tentativas de falsificação de solicitação entre sites (CSRF). Para obter mais informações, consulte a página Set-Cookieem Mozilla Developer Network. -
Os espaços de trabalho do Amazon EMR Studio e os endpoints de interface de usuário persistente usam módulos criptográficos validados pelo FIPS 140 para criptografia em trânsito, facilitando a adoção do serviço para workloads regulamentadas. Para obter mais contexto sobre endpoints de interface de usuário persistente, consulte Visualizar interfaces de usuário de aplicações persistentes no Amazon EMR. Para obter mais contexto sobre cadernos, consulte Visão geral de cadernos do Amazon EMR.
Problemas conhecidos
-
Um EMR Studio que usa o Centro de Identidade do IAM com a propagação de identidade confiável habilitada só pode se associar a clusters do EMR que também usam a propagação de identidade confiável.
-
Certifique-se de desativar as ferramentas de gerenciamento de proxy, como FoxyProxy ou SwitchyOmega, no navegador antes de criar um Studio. Os proxies ativos podem causar erros quando você escolhe Criar Studio e resultar em uma mensagem de erro de falha de rede.
-
Os kernels executados em clusters do Amazon EMR no EKS podem falhar ao iniciar devido a problemas de tempo limite. Se você encontrar um erro ou problema ao iniciar o kernel, feche o arquivo de caderno, encerre o kernel e reabra o arquivo de caderno.
-
A operação Reiniciar kernel não funciona conforme o esperado quando você usa um cluster do Amazon EMR no EKS. Após selecionar Reiniciar kernel, atualize o Workspace para que a reinicialização entre em vigor.
-
Se um Workspace não estiver anexado a um cluster, uma mensagem de erro será exibida quando um usuário do Studio abrir um arquivo de caderno e tentar selecionar um kernel. Você pode ignorar essa mensagem de erro ao escolher OK, mas deve anexar o Workspace a um cluster e selecionar um kernel antes de poder executar o código do caderno.
-
Ao usar o Amazon EMR 6.2.0 com uma configuração de segurança para definir a segurança do cluster, a interface do Workspace aparece em branco e não funciona conforme o esperado. Recomendamos usar uma versão diferente do Amazon EMR com suporte, se desejar configurar a criptografia de dados ou a autorização do Amazon S3 para o EMRFS em um cluster. O EMR Studio funciona com as versões 5.32.0 (série 5.x) e 6.2.0 (série 6.x) e superiores do Amazon EMR.
-
Ao realizar a Depure o Amazon EMR em execução em trabalhos da Amazon EC2 , os links para a interface do usuário do Spark no cluster podem não funcionar ou não aparecer. Para gerar os links novamente, crie uma nova célula de caderno e execute o comando
%%info. -
O Jupyter Enterprise Gateway não limpa os kernels ociosos no nó primário de um cluster nas seguintes versões de liberação do Amazon EMR: 5.32.0, 5.33.0, 6.2.0 e 6.3.0. Os kernels ociosos consomem recursos de computação e podem causar falhas em clusters de longa execução. Você pode configurar a limpeza de kernels ociosos para o Jupyter Enterprise Gateway usando o script de exemplo a seguir. É possível Como se conectar ao nó primário do cluster do Amazon EMR usando SSH ou enviar o script como uma etapa. Para obter mais informações, consulte Run commands and scripts on an Amazon EMR cluster.
#!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway -
Quando você usa uma política de encerramento automático com as versões 5.32.0, 5.33.0, 6.2.0 ou 6.3.0 do Amazon EMR, o Amazon EMR marca um cluster como ocioso e pode encerrá-lo automaticamente mesmo se você tiver um kernel do Python3 ativo. Isso ocorre porque a execução de um kernel do Python3 não envia um trabalho do Spark no cluster. Para usar o encerramento automático com um kernel do Python3, recomendamos usar a versão 6.4.0 ou as versões posteriores do Amazon EMR. Para obter mais informações sobre o encerramento automático, consulte Uso de uma política de encerramento automático para limpeza de cluster do Amazon EMR.
-
Quando você usa
%%displaypara exibir um quadro de dados do Spark em uma tabela, tabelas muito largas podem ficar truncadas. Você pode clicar com o botão direito do mouse na saída e selecionar Criar nova visualização para a saída para obter uma visualização da saída com rolagem. -
Iniciar um kernel baseado no Spark, como o PySpark, o Spark ou o SparkR, inicia uma sessão do Spark, e executar uma célula em um caderno coloca os trabalhos do Spark em fila nessa sessão. Quando você interrompe uma célula em execução, o trabalho do Spark continua a ser executado. Para interromper o trabalho do Spark, você deve usar a interface do usuário do Spark no cluster. Para obter instruções sobre como se conectar à interface do usuário do Spark, consulte Depuração de aplicações e trabalhos com o EMR Studio.
-
Usar Workspaces do Amazon EMR Studio como usuário-raiz em uma Conta da AWS causa um erro
403: Forbidden. Isso ocorre porque a configuração do Jupyter Enterprise Gateway no Amazon EMR não permite o acesso ao usuário-raiz. Recomendamos que você não use o usuário-raiz nas tarefas diárias. Para outras opções de autenticação, consulte AWS Identity and Access Management for Amazon EMR.
Limitações de recursos
O Amazon EMR Studio não oferece suporte aos seguintes recursos do Amazon EMR:
-
Anexação e execução de trabalhos em clusters do EMR com uma configuração de segurança que especifica a autenticação do Kerberos.
-
Clusters com vários nós primários.
-
Clusters que usam instâncias do Amazon EC2 baseadas no AWS Graviton2 para versões 6.x anteriores à 6.9.0 e versões 5.x anteriores à 5.36.1 do Amazon EMR.
Os recursos a seguir não são compatíveis com um Studio que usa a propagação de identidade confiável:
-
Criação de clusters do EMR sem um modelo.
-
Uso de aplicações do EMR Sem Servidor.
-
Execução de clusters do Amazon EMR no EKS.
-
Uso de um perfil de runtime.
-
Ativação da colaboração do SQL Explorer ou do Workspace.
Limites de serviço para o EMR Studio
A tabela a seguir exibe os limites de serviço para o EMR Studio.
| Item | Limite |
|---|---|
| EMR Studios | Máximo de cem por conta da AWS |
| Sub-redes | Máximo de cinco associações para cada EMR Studio |
| Grupos do Centro de Identidade do IAM | Máximo de cinco atribuições para cada EMR Studio |
| Usuários do Centro de Identidade do IAM | Máximo de cem atribuições para cada EMR Studio |