Iniciar um cluster do Amazon EMR com o Trino
A seguir, são descritas as opções de configuração corretas ao criar um cluster com o Trino.
Usar um conector do Hive para disponibilizar dados para consulta
Você pode configurar um conector do Trino para um metastore do Hive com o objetivo de consultar dados do metastore do seu cluster. Um metastore é uma camada de abstração que disponibiliza conteúdo ou dados baseados em arquivos como tabelas, facilitando a consulta. É necessário configurar um conector no Amazon EMR para disponibilizar as tabelas de metastore do Hive para o cluster. O procedimento a seguir mostra como fazer isso:
Escolha AWS Glue no console e crie uma tabela com base nos seus dados de origem no Amazon S3. Uma tabela no Catálogo de dados do AWS Glue é a definição de metadados para os dados. Nesse contexto, faz sentido gerar a tabela manualmente, criando colunas conforme desejar, a partir dos dados de origem. Para obter mais informações sobre como criar tabelas no AWS Glue a partir de dados semiestruturados no Amazon S3, consulte Criar tabelas com o console, no Guia do usuário do AWS Glue.
Defina sua configuração como parte da criação do cluster. Selecione a guia Configuração. Configurações são especificações opcionais para o seu cluster. Ao inserir uma configuração, adicione o JSON como no exemplo a seguir, que instrui o Trino a usar o Catálogo de dados do AWS Glue como metastore externo do Hive para metadados de tabelas:
{ "classification": "trino-connector-hive", "properties": { "hive.metastore": "glue" } }Como alternativa, você pode aplicar configurações na seção Configurações de software ao criar um cluster.
Além disso, é possível configurar outros tipos de conectores, como para conexão com o Apache Iceberg. Para saber mais, consulte Usar um cluster do Iceberg com Trino, no Guia de lançamento do Amazon EMR. A configuração de definições adicionais é opcional.
Para continuar com as etapas iniciais, consulte Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas.
Criar um cluster com o Trino
A seguir, são descritas as opções de configuração corretas ao criar um cluster que você deseja usar com o Trino.
Importante
Antes de criar seu cluster, conclua a configuração do Catálogo de dados do AWS Glue como seu metastore do Hive, o que recomendamos como primeiros passos. Para obter mais informações, consulte Usar um conector do Hive para disponibilizar dados para consulta.
No console da AWS, selecione Amazon EMR nos serviços. Ao escolhe o Amazon EMR, se você tiver clusters existentes, seus clusters do EMR no EC2 serão listados.
Selecione Criar cluster. A partir daqui, é iniciado o processo de criação de um cluster.
Dê um nome para o seu cluster e escolha uma versão do Amazon EMR. Para o tutorial, você pode escolher a versão mais atual.
Escolha o pacote Trino, que tem a aplicação Trino pré-selecionada. Pacotes são configurados para maior conveniência quando você sabe antecipadamente a finalidade do cluster. Caso contrário, basta marcar a caixa de seleção do Trino.
Em Configuração do cluster, escolha Grupos de instâncias uniformes. Vá em frente e remova os grupos de instâncias adicionais.
Escolha um Tipo de instância. Em geral, recomendamos escolher um tipo de instância com pelo menos 16 GiB de memória. Além disso, para Ajuste de escala e provisionamento do cluster, escolha Definir tamanho do cluster manualmente.
Nesse ponto, defina a configuração do metastore do Hive para apontar para o AWS Glue. Isso está detalhado na seção Usar um conector do Hive para disponibilizar dados para consulta. Conclua essa etapa antes de criar o cluster.
Selecione Criar cluster. Ela pode demorar alguns minutos.
As etapas aqui descritas não abrangem todas as etapas de configuração em detalhes. Informações adicionais sobre a configuração de um cluster estão disponíveis em Planejar, configurar e iniciar clusters do Amazon EMR.
nota
Não selecione o Presto e o Trino para uso no mesmo cluster. Não há suporte para a execução simultânea. Também é recomendável que, se você executar o Trino, não execute nenhuma outra aplicação no cluster, como o Spark.