Aprovisione datos de prueba y configure permisos Conexión y ejecución de consultas

Conexión al nodo principal del clúster de Amazon EMR y ejecución de consultas

Aprovisione datos de prueba y configure permisos

Puede probar Amazon EMR con Trino mediante AWS Glue Data Catalog y su metatienda Hive. Estos pasos previos describen cómo configurar los datos de prueba:

Si aún no lo ha hecho, cree una clave SSH para cifrar las comunicaciones.
Puede elegir entre varios sistemas de archivos para almacenar datos y archivos de registro. Para comenzar, cree un bucket de Amazon S3. Asigne un nombre único al bucket. Al crearlo, especifique la clave de cifrado que creó.

nota
Elija la misma región para crear el bucket de almacenamiento y el clúster de Amazon EMR.
Elija el bucket que ha creado. Elija Crear carpeta y asigne a la carpeta un nombre fácil de recordar. Al momento de crear la carpeta, elija una configuración de seguridad. Puede elegir la configuración de seguridad para la principal o hacer que la configuración de seguridad sea más especializada.
Agregue los datos de prueba a la carpeta. Para los fines de este tutorial, el uso de un archivo .csv de registros separados por comas funciona bien para completar este caso de uso.
Tras añadir datos a un bucket de Amazon S3, configura una tabla en AWS Glue para proporcionar una capa de abstracción para consultar los datos.

Conexión y ejecución de consultas

A continuación, se describe cómo conectarse y ejecutar consultas en un clúster que ejecuta Trino. Antes de hacerlo, asegúrese de configurar el conector del metalmacén de Hive, que se describe en el procedimiento anterior, de modo que las tablas del metalmacén estén visibles.

Se recomienda utilizar EC2 Instance Connect para conectarse al clúster, ya que proporciona una conexión segura. Elija Conectarse al nodo principal mediante SSH desde el resumen del clúster. La conexión requiere que el grupo de seguridad tenga una regla de entrada que permita las conexiones a través del puerto 22 a los clientes de la subred. También debe usar el usuario Hadoop cuando se conecte.
Inicie la CLI de Trino ejecutando trino-cli. Esto le permite ejecutar comandos y consultar datos con Trino.
Ejecute show catalogs;. Compruebe que el catálogo de Hive esté en la lista. Este proporciona una lista de los catálogos disponibles, que contienen almacenes de datos o configuraciones del sistema.
Para ver los esquemas disponibles, ejecute show schemas in hive;. Desde aquí, puede ejecutar use schema-name; e incluir el nombre del esquema. A continuación, puede ejecutar show tables; para enumerar las tablas.
Consulte una tabla ejecutando un comando como SELECT * FROM table-name, por ejemplo, usando el nombre de una tabla de su esquema. Si ya ejecutaste la USE sentencia para conectarte a un esquema específico, no tienes que usar una notación de dos partes, como. schema table.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Lanzamiento de un clúster de Amazon EMR con Trino

Configuración de Trino en Amazon EMR

Conexión al nodo principal del clúster de Amazon EMR y ejecución de consultas

Aprovisione datos de prueba y configure permisos

nota

Conexión y ejecución de consultas