Criar um cluster com o JupyterHub
É possível criar um cluster do Amazon EMR com o JupyterHub usando o Console de gerenciamento da AWS, o AWS Command Line Interface ou a API do Amazon EMR. Certifique-se de que o cluster não seja criado com a opção para encerrar automaticamente após concluir etapas (opção --auto-terminate na AWS CLI). Além disso, certifique-se de que os administradores de notebook e os usuários possam acessar o par de chaves que você usa ao criar o cluster. Para obter mais informações, consulte Usar um par de chaves para credenciais SSH no Guia de gerenciamento do Amazon EMR.
Criar um cluster com o JupyterHub usando o console
Use o procedimento a seguir para criar um cluster com o JupyterHub instalado usando Opções avançadas no console do Amazon EMR.
Criar um cluster do Amazon EMR com o JupyterHub instalado usando o console do Amazon EMR
Navegue até o novo console do Amazon EMR e selecione Alternar para o console antigo na navegação lateral. Para obter mais informações sobre o que esperar ao alternar para o console antigo, consulte Usar o console antigo.
-
Escolha Create cluster (Criar cluster), Go to advanced options (Ir para opções avançadas).
Em Software Configuration (Configuração de software):
Em Versão, selecione emr-5.36.2 e escolha JupyterHub.
Se você usa o Spark, para usar o Catálogo de Dados do AWS Glue como o metastore para Spark SQL, selecione Usar para metadados da tabela do Spark. Para obter mais informações, consulte Use o catálogo do Catálogo de dados do AWS Glue com o Spark no Amazon EMR.
Para Edit software settings (Editar configurações de software), escolha Enter configuration (Inserir configuração) e especifique valores ou escolha Load JSON from S3 (Carregar JSON de S3) e especifique um arquivo de configuração JSON. Para obter mais informações, consulte Configurar o JupyterHub.
Em (Add steps (optional)) Adicionar etapas (opcional) configure as etapas para serem executadas quando o cluster for criado, certifique-se de que Auto-terminate cluster after the last step is completed (Encerrar o cluster automaticamente após a última etapa for concluída) não esteja selecionada e escolha Next (Próximo).
Escolha a opção Hardware Configuration (Configuração de hardware), Next (Próximo). Para obter mais informações, consulte Configurar o hardware e a rede do cluster no Guia de gerenciamento do Amazon EMR.
Escolha opções para General Cluster Settings (Configurações gerais do cluster), Next (Próximo).
Escolha Security Options (Opões de segurança), especificando um par de chaves e escolha Create Cluster (Criar cluster).
Criar um cluster com o JupyterHub usando a AWS CLI
Para executar um cluster com o JupyterHub, use o comando aws emr create-cluster e, para a opção --applications, especifique Name=JupyterHub. O exemplo a seguir inicia um cluster do JupyterHub no Amazon EMR com duas instâncias do EC2 (uma instância principal e uma instância core). Além disso, a depuração é habilitada, com os logs armazenados no local do Amazon S3 conforme especificado pelo --log-uri. O par de chaves especificado fornece acesso a instâncias do Amazon EC2 no cluster.
nota
Os caracteres de continuação de linha do Linux (\) são incluídos para facilitar a leitura. Eles podem ser removidos ou usados em comandos do Linux. No Windows, remova-os ou substitua-os por um sinal de interpolação (^).
aws emr create-cluster --name="MyJupyterHubCluster" --release-label emr-5.36.2 \ --applications Name=JupyterHub --log-uris3://amzn-s3-demo-bucket/MyJupyterClusterLogs\ --use-default-roles --instance-type m5.xlarge --instance-count2--ec2-attributes KeyName=MyKeyPair