Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Conéctese al nodo principal del clúster de Amazon EMR y ejecute consultas
Aprovisione datos de prueba y configure permisos
Puede probar Amazon EMR con Trino mediante AWS Glue Data Catalog y su metatienda Hive. Los siguientes pasos previos describen cómo configurar los datos de la prueba, si aún no lo ha hecho:
Si aún no lo ha hecho, cree una clave SSH para cifrar las comunicaciones.
Puede elegir entre varios sistemas de archivos para almacenar datos y archivos de registro. Para empezar, cree un bucket de Amazon S3. Asigne un nombre único al bucket. Al crearlo, especifique la clave de cifrado que creó.
nota
Elija la misma región para crear el depósito de almacenamiento y el clúster de Amazon EMR.
Elija el depósito que ha creado. Selecciona Crear carpeta y dale a la carpeta un nombre fácil de recordar. Al crear la carpeta, elija una configuración de seguridad. Puede elegir la configuración de seguridad para la principal o hacer que la configuración de seguridad sea más especializada.
Añada los datos de prueba a la carpeta. Para los fines de este tutorial, el uso de un archivo.csv de registros separados por comas funciona bien para completar este caso de uso.
Tras añadir datos a un bucket de Amazon S3, configura una tabla en AWS Glue para proporcionar una capa de abstracción para consultar los datos.
Conectar y ejecutar consultas
A continuación, se describe cómo conectarse a un clúster que ejecuta Trino y cómo ejecutarlas en él. Antes de hacerlo, asegúrese de configurar el conector del metaalmacén de Hive, que se describe en el procedimiento anterior, de modo que las tablas del metaalmacén estén visibles.
Recomendamos usar EC2 Instance Connect para conectarse al clúster, ya que proporciona una conexión segura. Elija Conectarse al nodo principal mediante SSH en el resumen del clúster. La conexión requiere que el grupo de seguridad tenga una regla de entrada que permita las conexiones a través del puerto 22 a los clientes de la subred. También debe usar el usuario hadoop al conectarse.
Inicie la CLI de Trino ejecutando
trino-cli
. Esto le permite ejecutar comandos y consultar datos con Trino.Ejecute
show catalogs;
. Compruebe que el catálogo de colmenas esté en la lista. Esto proporciona una lista de los catálogos disponibles, que contienen almacenes de datos o configuraciones del sistema.Para ver los esquemas disponibles, ejecute.
show schemas in hive;
Desde aquí, puede ejecutaruse
e incluir el nombre de su esquema. A continuación, puede correrschema-name
;show tables;
para enumerar las tablas.Consulta una tabla ejecutando un comando como
SELECT * FROM
, por ejemplo, usando el nombre de una tabla de tu esquema. Si ya ejecutó latable-name
USE
instrucción para conectarse a un esquema específico, no tiene que usar una notación de dos partes, comoschema
.table
.