Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Avvio di un cluster Amazon EMR con Trino
Di seguito sono riportate le scelte di configurazione corrette durante la creazione di un cluster con Trino.
Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione
È possibile configurare un connettore Trino per un metastore Hive allo scopo di interrogare i dati del metastore dal cluster. Un metastore è un livello di astrazione che rende disponibili contenuti o dati basati su file come tabelle, quindi è facile interrogarli. È necessario configurare un connettore in Amazon EMR per rendere le tabelle dei metastore Hive disponibili per il cluster. La procedura seguente mostra come eseguire questa operazione:
Scegli AWS Glue nella console e crea una tabella, basata sui tuoi dati di origine in Amazon S3. Una tabella nel AWS Glue Data Catalog è la definizione dei metadati per i dati. In questo contesto ha senso creare la tabella manualmente, creando colonne a piacere, a partire dai dati di origine. Per ulteriori informazioni sulla creazione di tabelle in AWS Glue da dati semistrutturati in Amazon S3, consulta Creazione di tabelle utilizzando la console nella AWS Glue User Guide.
Imposta la configurazione come parte della creazione del cluster. Seleziona la scheda Configurazione. Le configurazioni sono specifiche opzionali per il cluster. Quando inserite una configurazione, aggiungete JSON come nell'esempio seguente, che indica a Trino di utilizzare il AWS Glue Data Catalog come metastore Hive esterno per i metadati delle tabelle:
{ "classification": "trino-connector-hive", "properties": { "hive.metastore": "glue" } }
In alternativa, è possibile applicare le configurazioni nella sezione Impostazioni software quando si crea un cluster.
Inoltre, è possibile configurare altri tipi di connettori, ad esempio per la connessione con Apache Iceberg. Per ulteriori informazioni, consulta Usare un cluster Iceberg con Trino nella Amazon EMR Release Guide. La configurazione di impostazioni aggiuntive è facoltativa.
Per continuare la procedura introduttiva, consulta. Connect to the primary node to the primary node using the primary node using the primary node using the primary node using the primary node using the primary node using the primary node using
Creazione di un cluster con Trino
Di seguito vengono descritte le scelte di configurazione corrette quando si crea un cluster da utilizzare con Trino.
Importante
Prima di creare il cluster, completa AWS la configurazione di Glue Data Catalog come metastore Hive, che consigliamo per iniziare. Per ulteriori informazioni, consulta Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione.
Nella AWS console, seleziona Amazon EMR dai servizi. Quando scegli Amazon EMR, se disponi di cluster esistenti, vengono elencati i tuoi EMR sui cluster. EC2
Scegli Create cluster (Crea cluster). Da qui, inizi il processo di creazione di un cluster.
Assegna un nome al cluster e scegli una versione di Amazon EMR. Puoi scegliere la versione più recente per il tutorial.
Scegliete il pacchetto Trino, che contiene l'applicazione Trino preselezionata. I pacchetti vengono configurati per comodità quando si conosce in anticipo lo scopo del cluster. Altrimenti, puoi semplicemente selezionare la casella di controllo per Trino.
Per la configurazione del cluster, scegli Gruppi di istanze uniformi. Vai avanti e rimuovi i gruppi di istanze aggiuntivi.
Scegli un tipo di istanza. In genere si consiglia di scegliere un tipo di istanza con almeno 16 GiB di memoria. Inoltre, per la scalabilità e il provisioning del cluster, scegli Imposta la dimensione del cluster manualmente.
A questo punto, imposta la configurazione del metastore Hive in modo che punti a Glue. AWS Questo è dettagliato nella sezione. Utilizzo di un connettore Hive per rendere disponibili i dati per l'interrogazione Completate questa operazione prima di creare il cluster.
Scegli Create cluster (Crea cluster). Per completare la procedura, potrebbero essere necessari alcuni minuti.
I passaggi qui riportati non coprono in dettaglio tutti i passaggi di configurazione. Ulteriori informazioni sulla configurazione di un cluster sono disponibili nella pagina Pianifica, configura e avvia i cluster Amazon EMR.
Nota
Non selezionare Presto e Trino per utilizzarli sullo stesso cluster. La loro esecuzione insieme non è supportata. Si consiglia inoltre di non eseguire altre applicazioni sul cluster, ad esempio Spark, se si esegue Trino.