Consulta de datos mediante Amazon Athena.Consulta de datos de Amazon Redshift

Consulta datos en Amazon Athena o Amazon Redshift en Amazon DataZone

En Amazon DataZone, una vez que un suscriptor tiene acceso a un activo del catálogo, puede consumirlo (consultarlo y analizarlo) con Amazon Athena o el editor de consultas Amazon Redshift v2. Debe ser propietario o colaborador del proyecto para completar esta tarea. Según los planos habilitados en el proyecto, Amazon DataZone proporciona enlaces al editor de consultas Amazon and/or Redshift v2 de Amazon Athena en el panel lateral derecho de la página del proyecto en el portal de datos.

Ve a la URL del portal de DataZone datos de Amazon e inicia sesión con el inicio de sesión único (SSO) o con tus credenciales. AWS Si eres DataZone administrador de Amazon, puedes ir a la DataZone consola de Amazon en https://console.aws.amazon.com/datazone e iniciar sesión con el Cuenta de AWS lugar donde se creó el dominio y, a continuación, elegir Open data portal.
En el portal de DataZone datos de Amazon, elija Examinar lista de proyectos y, a continuación, busque y elija el proyecto en el que tiene los datos que desea analizar.
Si el esquema del lago de datos está activado en este proyecto, aparecerá un enlace a Amazon Athena en el panel lateral derecho de la página de inicio del proyecto.

Si el esquema del almacenamiento de datos está activado en este proyecto, aparecerá un enlace al editor de consultas en el panel lateral derecho de la página de inicio del proyecto.

nota
Los esquemas se definen en el perfil de entorno con el que se crea un proyecto.

Temas

Consulta de datos mediante Amazon Athena.
Consulta de datos de Amazon Redshift

Consulta de datos mediante Amazon Athena.

Elija el enlace Amazon Athena para abrir el editor de consultas de Amazon Athena en una nueva pestaña del navegador con las credenciales del proyecto para la autenticación. El DataZone proyecto de Amazon con el que estás trabajando se selecciona automáticamente como grupo de trabajo actual en el editor de consultas.

En el editor de consultas de Amazon Athena, escriba y ejecute sus consultas. Entre las tareas frecuentes se incluyen:

Consulte y análisis de los activos suscritos
Creación de nuevas tablas
Creación de una tabla a partir de los resultados de una consulta (CTAS) desde un bucket de S3 externo

Consulte y análisis de los activos suscritos

Si Amazon no concede automáticamente el acceso a los activos a los que está suscrito tu proyecto DataZone, debes estar autorizado a acceder a los datos subyacentes. Para obtener más información sobre cómo conceder acceso a estos activos, consulte Conceder acceso a las suscripciones aprobadas a activos no gestionados en Amazon DataZone.

Si Amazon concede automáticamente el acceso a los activos a los que está suscrito su proyecto DataZone, puede ejecutar consultas SQL en las tablas y ver los resultados en Amazon Athena. Para obtener más información sobre el uso de SQL en Amazon Athena, consulte la referencia de SQL para Athena.

Cuando acceda al editor de consultas de Amazon Athena después de elegir el enlace de Amazon Athena en el panel lateral derecho de la página de inicio del proyecto, aparece un menú desplegable de Proyecto en la esquina superior derecha del editor de consultas de Amazon Athena y se selecciona automáticamente el contexto del proyecto.

Puede ver las siguientes bases de datos en el menú desplegable de Base de datos:

Una base de datos de publicación ({environmentname}_pub_db). El objetivo de esta base de datos es proporcionarte un entorno en el que puedas generar nuevos datos en el contexto de tu proyecto y luego poder publicarlos en el DataZone catálogo de Amazon. Los propietarios y colaboradores del proyecto tienen acceso de lectura y escritura a esta base de datos. Los espectadores del proyecto solo tienen acceso de lectura a esta base de datos.
Una base de datos de suscripciones ({environmentname}_sub_db). El objetivo de esta base de datos es compartir contigo los datos a los que te has suscrito como miembro del proyecto en el DataZone catálogo de Amazon y permitirte consultarlos.

Creación de nuevas tablas

Si se ha conectado a un bucket de S3 externo, puede usar Amazon Athena para consultar y analizar los activos desde un bucket de Amazon S3 externo. En este escenario, Amazon DataZone no tiene permisos para conceder acceso directamente a los datos subyacentes del bucket externo de Amazon S3, y los datos externos de Amazon S3 creados fuera del proyecto no se gestionan automáticamente en Lake Formation y Amazon no puede gestionarlos DataZone. Una alternativa es copiar los datos del bucket de Amazon S3 externo a una nueva tabla dentro del bucket del proyecto de Amazon S3 mediante una declaración CREATE TABLE en Amazon Athena. Cuando se ejecuta una consulta CREATE TABLE en Amazon Athena, la tabla se registra con el AWS Glue Data Catalog.

Para especificar la ruta a los datos en Amazon S3, utilice la propiedad LOCATION, como se muestra en el ejemplo siguiente:



CREATE EXTERNAL TABLE 'test_table'(
...
)
ROW FORMAT ...
STORED AS INPUTFORMAT ...
OUTPUTFORMAT ...
LOCATION 's3://bucketname/folder/'

Para obtener más información, consulte Ubicación de las tablas en Amazon S3.

Creación de una tabla a partir de los resultados de una consulta (CTAS) desde un bucket de S3 externo

Al suscribirse a un activo, el acceso a los datos subyacentes es de solo lectura. Puede usar Amazon Athena para crear una copia de la tabla. En Amazon Athena, una consulta A CREATE TABLE AS SELECT (CTAS) crea una nueva tabla en Amazon Athena a partir de los resultados de una instrucción SELECT de otra consulta. Para obtener información sobre la sintaxis de CTAS, consulte CREATE TABLE AS.

En el siguiente ejemplo se crea una tabla copiando todas las columnas de una tabla:



CREATE TABLE new_table AS
SELECT *
FROM old_table;

En la siguiente variante del ejemplo anterior, la instrucción SELECT incluye también una cláusula WHERE. En este caso, la consulta solo selecciona las filas de la tabla que satisfacen la cláusula WHERE:



CREATE TABLE new_table AS
SELECT *
FROM old_table WHERE condition;

En el siguiente ejemplo se crea una nueva consulta que se ejecuta en un conjunto de columnas de otra tabla:



CREATE TABLE new_table AS
SELECT column_1, column_2, ... column_n
FROM old_table;

Esta variante del mismo ejemplo crea una nueva tabla a partir de columnas específicas de varias tablas:



CREATE TABLE new_table AS
SELECT column_1, column_2, ... column_n
FROM old_table_1, old_table_2, ... old_table_n;

Estas tablas recién creadas ahora forman parte de la AWS Glue base de datos de tus proyectos y otras personas pueden descubrirlas y compartirlas con otros DataZone proyectos de Amazon publicando los datos como un activo en el catálogo de Amazon DataZone .

Consulta de datos de Amazon Redshift

En el portal de DataZone datos de Amazon, abra un entorno que utilice el modelo de almacén de datos. Elija el enlace Amazon Redshift en el panel derecho de la página del entorno. Se abrirá un cuadro de diálogo de confirmación con los detalles necesarios que le ayudarán a establecer una conexión con el clúster Amazon Redshift o el grupo de trabajo Amazon Redshift sin servidor del entorno en el editor de consultas V2 de Amazon Redshift. Una vez que haya identificado los detalles necesarios para establecer la conexión, pulse el botón Abrir Amazon Redshift. Esto abre el editor de consultas Amazon Redshift v2.0 en una nueva pestaña del navegador con las credenciales temporales del entorno de Amazon. DataZone

En el editor de consultas, siga los pasos que se indican a continuación en función de si su entorno utiliza un grupo de trabajo de Amazon Redshift sin servidor o un clúster de Amazon Redshift.

Para un grupo de trabajo de Amazon Redshift sin servidor:

En el editor de consultas, identifique el grupo de trabajo Amazon Redshift Serverless de su DataZone entorno de Amazon, haga clic con el botón derecho en él y elija Create a connection.
Elija Usuario federado para la autenticación.
Proporcione el nombre de la base de datos del DataZone entorno de Amazon.
Elija Crear conexión.

Para un clúster de Amazon Redshift:

En el editor de consultas, identifique el clúster Amazon Redshift de su DataZone entorno de Amazon, haga clic con el botón derecho en él y elija Create a connection.
Seleccione Credenciales temporales mediante su identidad de IAM para la autenticación.
Si el método de autenticación anterior no está disponible, abra la Configuración de cuenta pulsando el botón de engranaje situado en la esquina inferior izquierda, elija Autenticar con credenciales de IAM y guarde. Esta es una one-time-only configuración.
Proporcione el nombre de la base de datos del DataZone entorno de Amazon para crear la conexión.
Elija Crear conexión.

Ahora puede empezar a realizar consultas en las tablas y vistas del clúster de Amazon Redshift o del grupo de trabajo Amazon Redshift Serverless configurado para su entorno de Amazon. DataZone

Todas las tablas o vistas de Amazon Redshift a las que se haya suscrito están vinculadas al clúster de Amazon Redshift o al grupo de trabajo de Amazon Redshift sin servidor configurado para el entorno. Puede suscribirse a las tablas y vistas, así como publicar las tablas y vistas nuevas que cree en el clúster o la base de datos de su entorno.

Por ejemplo, imaginemos que un entorno está vinculado a un clúster de Amazon Redshift llamado redshift-cluster-1 y a una base de datos llamada dev en ese clúster. Con el portal de DataZone datos de Amazon, puede consultar las tablas y vistas que se añaden a su entorno. En la sección Analytics tools del panel lateral derecho del portal de datos, puede elegir el enlace Amazon Redshift para este entorno, que abre el editor de consultas. A continuación, puede hacer clic con el botón derecho en el clúster de redshift-cluster-1 y crear una conexión con las credenciales temporales con su identidad de IAM. Una vez establecida la conexión, podrá ver todas las tablas y vistas a las que tiene acceso su entorno en la base de datos de dev.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Concesión de acceso para suscripciones aprobadas a activos no administrados

Normas de aplicación de metadatos para solicitudes de suscripciones