Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione Crea un cluster con Trino

Avvia un cluster Amazon EMR con Trino

Di seguito vengono descritte le scelte di configurazione corrette quando si crea un cluster con Trino.

Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione

È possibile configurare un connettore Trino per un metastore Hive allo scopo di interrogare i dati del metastore dal cluster. Un metastore è un livello di astrazione che rende disponibili contenuti o dati basati su file come tabelle, quindi è facile interrogarli. È necessario configurare un connettore in Amazon EMR per rendere le tabelle dei metastore Hive disponibili per il cluster. La procedura seguente mostra come eseguire questa operazione:

Scegli AWS Glue nella console e crea una tabella, basata sui tuoi dati di origine in Amazon S3. Una tabella nel AWS Glue Data Catalog è la definizione dei metadati per i dati. In questo contesto ha senso creare la tabella manualmente, creando colonne a piacere, a partire dai dati di origine. Per ulteriori informazioni sulla creazione di tabelle in AWS Glue da dati semistrutturati in Amazon S3, consulta Creazione di tabelle utilizzando la console nella AWS Glue User Guide.
Imposta la configurazione come parte della creazione del cluster. Seleziona la scheda Configurazione. Le configurazioni sono specifiche opzionali per il cluster. Quando inserite una configurazione, aggiungete JSON come nell'esempio seguente, che indica a Trino di utilizzare il AWS Glue Data Catalog come metastore Hive esterno per i metadati delle tabelle:
```
{
    "classification": "trino-connector-hive",
    "properties": {
        "hive.metastore": "glue"
    }
}
```
In alternativa, è possibile applicare le configurazioni nella sezione Impostazioni software quando si crea un cluster.

Inoltre, è possibile configurare altri tipi di connettori, ad esempio per la connessione con Apache Iceberg. Per ulteriori informazioni, consulta Usare un cluster Iceberg con Trino nella Amazon EMR Release Guide. La configurazione di impostazioni aggiuntive è facoltativa.

Per continuare la procedura introduttiva, consulta. Connect al nodo primario per il cluster Amazon EMR ed esegui query

Crea un cluster con Trino

Di seguito vengono descritte le scelte di configurazione corrette quando si crea un cluster da utilizzare con Trino.

Importante

Prima di creare il cluster, completa AWS la configurazione di Glue Data Catalog come metastore Hive, che consigliamo per iniziare. Per ulteriori informazioni, consulta Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione.

Nella AWS console, seleziona Amazon EMR dai servizi. Quando scegli Amazon EMR, se disponi di cluster esistenti, viene elencato il tuo EMR sui cluster EC2.
Scegli Crea cluster. Da qui, inizi il processo di creazione di un cluster.
Assegna un nome al cluster e scegli una versione di Amazon EMR. Puoi scegliere la versione più recente per il tutorial.
Scegliete il pacchetto Trino, che contiene l'applicazione Trino preselezionata. I pacchetti vengono configurati per comodità quando si conosce in anticipo lo scopo del cluster. Altrimenti, puoi semplicemente selezionare la casella di controllo per Trino.
Per la configurazione del cluster, scegli Gruppi di istanze uniformi. Vai avanti e rimuovi i gruppi di istanze aggiuntivi.
Scegli un tipo di istanza. In genere si consiglia di scegliere un tipo di istanza con almeno 16 GiB di memoria. Inoltre, per la scalabilità e il provisioning del cluster, scegli Imposta la dimensione del cluster manualmente.
A questo punto, imposta la configurazione del metastore Hive in modo che punti a Glue. AWS Questo è dettagliato nella sezione. Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione Completate questa operazione prima di creare il cluster.
Scegli Crea cluster. Il completamento può richiedere alcuni minuti.

I passaggi qui riportati non coprono in dettaglio tutti i passaggi di configurazione. Ulteriori informazioni sulla configurazione di un cluster sono disponibili nella pagina Pianifica, configura e avvia i cluster Amazon EMR.

Nota

Non selezionare Presto e Trino per utilizzarli sullo stesso cluster. La loro esecuzione insieme non è supportata. Si consiglia inoltre di non eseguire altre applicazioni sul cluster, ad esempio Spark, se si esegue Trino.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Completa i passaggi preliminari per l'utilizzo di Amazon EMR con Trino

Connect al nodo primario ed esecuzione di interrogazioni