Usar um conector do Hive para disponibilizar dados para consulta Criar um cluster com o Trino

Iniciar um cluster do Amazon EMR com o Trino

A seguir, são descritas as opções de configuração corretas ao criar um cluster com o Trino.

Usar um conector do Hive para disponibilizar dados para consulta

Você pode configurar um conector do Trino para um metastore do Hive com o objetivo de consultar dados do metastore do seu cluster. Um metastore é uma camada de abstração que disponibiliza conteúdo ou dados baseados em arquivos como tabelas, facilitando a consulta. É necessário configurar um conector no Amazon EMR para disponibilizar as tabelas de metastore do Hive para o cluster. O procedimento a seguir mostra como fazer isso:

Escolha AWS Glue no console e crie uma tabela com base em seus dados de origem no Amazon S3. Uma tabela no AWS Glue Data Catalog é a definição de metadados para os dados. Nesse contexto, faz sentido gerar a tabela manualmente, criando colunas conforme desejar, a partir dos dados de origem. Para obter mais informações sobre a criação de tabelas no AWS Glue a partir de dados semiestruturados no Amazon S3, consulte Criação de tabelas usando o console no Guia do usuário do AWS Glue.
Defina sua configuração como parte da criação do cluster. Selecione a guia Configuração. Configurações são especificações opcionais para o seu cluster. Ao inserir uma configuração, adicione JSON como no exemplo a seguir, que instrui Trino a usar o AWS Glue Data Catalog como seu metastore externo do Hive para metadados de tabelas:
```
{
    "classification": "trino-connector-hive",
    "properties": {
        "hive.metastore": "glue"
    }
}
```
Como alternativa, você pode aplicar configurações na seção Configurações de software ao criar um cluster.

Além disso, é possível configurar outros tipos de conectores, como para conexão com o Apache Iceberg. Para saber mais, consulte Usar um cluster do Iceberg com Trino, no Guia de lançamento do Amazon EMR. A configuração de definições adicionais é opcional.

Para continuar com as etapas iniciais, consulte Conectar-se ao nó primário do cluster do Amazon EMR e executar consultas.

Criar um cluster com o Trino

A seguir, são descritas as opções de configuração corretas ao criar um cluster que você deseja usar com o Trino.

Importante

Antes de criar seu cluster, conclua a configuração do AWS Glue Data Catalog como seu metastore do Hive, o que recomendamos para começar. Para obter mais informações, consulte Usar um conector do Hive para disponibilizar dados para consulta.

No AWS console, selecione Amazon EMR nos serviços. Ao escolhe o Amazon EMR, se você tiver clusters existentes, seus clusters do EMR no EC2 serão listados.
Selecione Criar cluster. A partir daqui, é iniciado o processo de criação de um cluster.
Dê um nome para o seu cluster e escolha uma versão do Amazon EMR. Para o tutorial, você pode escolher a versão mais atual.
Escolha o pacote Trino, que tem a aplicação Trino pré-selecionada. Pacotes são configurados para maior conveniência quando você sabe antecipadamente a finalidade do cluster. Caso contrário, basta marcar a caixa de seleção do Trino.
Em Configuração do cluster, escolha Grupos de instâncias uniformes. Vá em frente e remova os grupos de instâncias adicionais.
Escolha um Tipo de instância. Em geral, recomendamos escolher um tipo de instância com pelo menos 16 GiB de memória. Além disso, para Ajuste de escala e provisionamento do cluster, escolha Definir tamanho do cluster manualmente.
Neste ponto, defina a configuração da metastore do Hive para apontar para Glue. AWS Isso está detalhado na seção Usar um conector do Hive para disponibilizar dados para consulta. Conclua essa etapa antes de criar o cluster.
Selecione Criar cluster. Ela pode demorar alguns minutos.

As etapas aqui descritas não abrangem todas as etapas de configuração em detalhes. Informações adicionais sobre a configuração de um cluster estão disponíveis em Planejar, configurar e iniciar clusters do Amazon EMR.

nota

Não selecione o Presto e o Trino para uso no mesmo cluster. Não há suporte para a execução simultânea. Também é recomendável que, se você executar o Trino, não execute nenhuma outra aplicação no cluster, como o Spark.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conclua as etapas de pré-requisitos para usar o Amazon EMR com o Trino

Conectar-se ao nó primário e executar consultas