Consulta de datos en Amazon Athena o Amazon Redshift en Amazon DataZone
En Amazon DataZone, una vez que un suscriptor tiene acceso a un activo del catálogo, puede consumirlo (consultarlo y analizarlo) con Amazon Athena o con el editor de consultas V2 de Amazon Redshift. Debe ser propietario o colaborador del proyecto para completar esta tarea. Según los esquemas habilitados en el proyecto, Amazon DataZone proporciona enlaces a Amazon Athena o al editor de consultas V2 de Amazon Redshift en el panel lateral derecho de la página del proyecto en el portal de datos.
-
Acceda a la URL del portal de datos de Amazon DataZone e inicie sesión con las credenciales de inicio de sesión único (SSO) o con las de AWS. Si es administrador de Amazon DataZone, puede ir a la consola de Amazon DataZone en https://console.aws.amazon.com/datazone
e iniciar sesión con la Cuenta de AWS en la que se creó el dominio y, a continuación, elegir Abrir el portal de datos. -
En el portal de datos de Amazon DataZone, elija Examinar lista de proyectos y, a continuación, busque y elija el proyecto en el que tiene los datos que desea analizar.
-
Si el esquema del lago de datos está activado en este proyecto, aparecerá un enlace a Amazon Athena en el panel lateral derecho de la página de inicio del proyecto.
Si el esquema del almacenamiento de datos está activado en este proyecto, aparecerá un enlace al editor de consultas en el panel lateral derecho de la página de inicio del proyecto.
nota
Los esquemas se definen en el perfil de entorno con el que se crea un proyecto.
Consulta de datos mediante Amazon Athena.
Elija el enlace Amazon Athena para abrir el editor de consultas de Amazon Athena en una nueva pestaña del navegador con las credenciales del proyecto para la autenticación. El proyecto de Amazon DataZone con el que está trabajando se selecciona automáticamente como grupo de trabajo actual en el editor de consultas.
En el editor de consultas de Amazon Athena, escriba y ejecute sus consultas. Entre las tareas frecuentes se incluyen:
Consulte y análisis de los activos suscritos
Si Amazon DataZone no concede automáticamente el acceso a los activos a los que está suscrito su proyecto, debe estar autorizado a acceder a los datos subyacentes. Para obtener más información sobre cómo conceder acceso a estos activos, consulte Concesión de acceso para suscripciones aprobadas a activos no administrados en Amazon DataZone.
Si Amazon DataZone concede automáticamente el acceso a los activos a los que está suscrito su proyecto, puede ejecutar consultas SQL en las tablas y ver los resultados en Amazon Athena. Para obtener más información sobre el uso de SQL en Amazon Athena, consulte la referencia de SQL para Athena.
Cuando acceda al editor de consultas de Amazon Athena después de elegir el enlace de Amazon Athena en el panel lateral derecho de la página de inicio del proyecto, aparece un menú desplegable de Proyecto en la esquina superior derecha del editor de consultas de Amazon Athena y se selecciona automáticamente el contexto del proyecto.
Puede ver las siguientes bases de datos en el menú desplegable de Base de datos:
-
Una base de datos de publicación (
). El objetivo de esta base de datos es proporcionarle un entorno en el que pueda generar nuevos datos en el contexto de su proyecto y luego poder publicarlos en el catálogo de Amazon DataZone. Los propietarios y colaboradores del proyecto tienen acceso de lectura y escritura a esta base de datos. Los espectadores del proyecto solo tienen acceso de lectura a esta base de datos.{environmentname}_pub_db -
Una base de datos de suscripciones (
). El objetivo de esta base de datos es compartir con usted los datos a los que se ha suscrito como miembro del proyecto en el catálogo de Amazon DataZone y permitirle consultarlos.{environmentname}_sub_db
Creación de nuevas tablas
Si se ha conectado a un bucket de S3 externo, puede usar Amazon Athena para consultar y analizar los activos desde un bucket de Amazon S3 externo. En este escenario, Amazon DataZone no tiene permisos para conceder acceso directamente a los datos subyacentes del bucket externo de Amazon S3. Los datos externos de Amazon S3 creados fuera del proyecto no se administran automáticamente en Lake Formation y Amazon DataZone no puede administrarlos. Una alternativa es copiar los datos del bucket de Amazon S3 externo a una nueva tabla dentro del bucket del proyecto de Amazon S3 mediante una declaración CREATE TABLE en Amazon Athena. Cuando se ejecuta una consulta CREATE TABLE en Amazon Athena, la tabla se registra con el AWS Glue Data Catalog.
Para especificar la ruta a los datos en Amazon S3, utilice la propiedad LOCATION, como se muestra en el ejemplo siguiente:
CREATE EXTERNAL TABLE 'test_table'( ... ) ROW FORMAT ... STORED AS INPUTFORMAT ... OUTPUTFORMAT ... LOCATION 's3://bucketname/folder/'
Para obtener más información, consulte Ubicación de las tablas en Amazon S3.
Creación de una tabla a partir de los resultados de una consulta (CTAS) desde un bucket de S3 externo
Al suscribirse a un activo, el acceso a los datos subyacentes es de solo lectura. Puede usar Amazon Athena para crear una copia de la tabla. En Amazon Athena, una consulta A
CREATE TABLE AS SELECT (CTAS) crea una nueva tabla en Amazon Athena a partir de los resultados de una instrucción SELECT de otra consulta. Para obtener información sobre la sintaxis de CTAS, consulte CREATE TABLE AS.
En el siguiente ejemplo se crea una tabla copiando todas las columnas de una tabla:
CREATE TABLE new_table AS SELECT * FROM old_table;
En la siguiente variante del ejemplo anterior, la instrucción SELECT incluye también una cláusula WHERE. En este caso, la consulta solo selecciona las filas de la tabla que satisfacen la cláusula WHERE:
CREATE TABLE new_table AS SELECT * FROM old_table WHERE condition;
En el siguiente ejemplo se crea una nueva consulta que se ejecuta en un conjunto de columnas de otra tabla:
CREATE TABLE new_table AS SELECT column_1, column_2, ... column_n FROM old_table;
Esta variante del mismo ejemplo crea una nueva tabla a partir de columnas específicas de varias tablas:
CREATE TABLE new_table AS SELECT column_1, column_2, ... column_n FROM old_table_1, old_table_2, ... old_table_n;
Estas tablas recién creadas ahora forman parte de la base de datos de sus proyectos AWS Glue y otras personas pueden descubrirlas y compartirlas con otros proyectos de Amazon DataZone publicando los datos como un activo en el catálogo de Amazon DataZone.
Consulta de datos de Amazon Redshift
En el portal de datos de Amazon DataZone, abra un entorno que utilice el esquema de almacenamiento de datos. Elija el enlace Amazon Redshift en el panel derecho de la página del entorno. Se abrirá un cuadro de diálogo de confirmación con los detalles necesarios que le ayudarán a establecer una conexión con el clúster Amazon Redshift o el grupo de trabajo Amazon Redshift sin servidor del entorno en el editor de consultas V2 de Amazon Redshift. Una vez que haya identificado los detalles necesarios para establecer la conexión, pulse el botón Abrir Amazon Redshift. Esto abre el editor de consultas V2 de Amazon Redshift en una nueva pestaña del navegador con las credenciales temporales del entorno de Amazon DataZone.
En el editor de consultas, siga los pasos que se indican a continuación en función de si su entorno utiliza un grupo de trabajo de Amazon Redshift sin servidor o un clúster de Amazon Redshift.
Para un grupo de trabajo de Amazon Redshift sin servidor:
-
En el editor de consultas, identifique el grupo de trabajo de Amazon Redshift sin servidor del entorno de Amazon DataZone, haga clic en él con el botón derecho y elija Crear una conexión.
-
Elija Usuario federado para la autenticación.
-
Proporcione el nombre de la base de datos del entorno de Amazon DataZone.
-
Elija Crear conexión.
Para un clúster de Amazon Redshift:
-
En el editor de consultas, identifique el clúster de Amazon Redshift del entorno de Amazon DataZone, haga clic en él con el botón derecho y elija Crear una conexión.
-
Seleccione Credenciales temporales mediante su identidad de IAM para la autenticación.
-
Si el método de autenticación anterior no está disponible, abra la Configuración de cuenta pulsando el botón de engranaje situado en la esquina inferior izquierda, elija Autenticar con credenciales de IAM y guarde. Solo tendrá que hacerlo una vez.
-
Proporcione el nombre de la base de datos del entorno de Amazon DataZone para crear la conexión.
-
Elija Crear conexión.
Ahora puede empezar a realizar consultas en las tablas y vistas del clúster de Amazon Redshift o del grupo de trabajo de Amazon Redshift sin servidor configurado para su entorno de Amazon DataZone.
Todas las tablas o vistas de Amazon Redshift a las que se haya suscrito están vinculadas al clúster de Amazon Redshift o al grupo de trabajo de Amazon Redshift sin servidor configurado para el entorno. Puede suscribirse a las tablas y vistas, así como publicar las tablas y vistas nuevas que cree en el clúster o la base de datos de su entorno.
Por ejemplo, imaginemos que un entorno está vinculado a un clúster de Amazon Redshift llamado redshift-cluster-1 y a una base de datos llamada dev en ese clúster. Con el portal de datos de Amazon DataZone, puede consultar las tablas y las vistas que se agreguen a su entorno. En la sección Analytics tools del panel lateral derecho del portal de datos, puede elegir el enlace Amazon Redshift para este entorno, que abre el editor de consultas. A continuación, puede hacer clic con el botón derecho en el clúster de redshift-cluster-1 y crear una conexión con las credenciales temporales con su identidad de IAM. Una vez establecida la conexión, podrá ver todas las tablas y vistas a las que tiene acceso su entorno en la base de datos de dev.