Guía de inicio rápido de Amazon DataZone con datos de Amazon Redshift
Complete los siguientes pasos de inicio rápido para recorrer todos los flujos de trabajo de productores y consumidores de datos en Amazon DataZone con muestras de datos de Amazon Redshift.
Pasos de inicio rápido
Paso 1: Crear el dominio y el portal de datos de Amazon DataZone
Complete el siguiente procedimiento para crear un dominio de Amazon DataZone. Para obtener más información sobre dominios de Amazon DataZone, consulte Terminología y conceptos de Amazon DataZone.
-
Vaya a la consola de Amazon DataZone en https://console.aws.amazon.com/datazone
, inicie sesión y elija Crear dominio. nota
Si desea utilizar un dominio de Amazon DataZone existente para este flujo de trabajo, elija Ver dominios, elija el dominio que desee utilizar y, a continuación, continúe con el paso 2 de creación de un proyecto de publicación.
-
En la página Crear dominio, proporcione valores para los siguientes campos:
-
Nombre: especifique un nombre para su dominio. A los efectos de este flujo de trabajo, puede llamar a este dominio
Marketing. -
Descripción: especifique una descripción de dominio opcional.
-
Cifrado de datos: sus datos están cifrados de manera predeterminada con una clave que AWS administra y tiene en su propiedad. Para este tutorial, puede dejar la configuración de cifrado de datos predeterminada.
Para obtener más información sobre las claves administradas por el cliente, consulte Cifrado de datos en reposo para Amazon DataZone. Si usa su propia clave de KMS para el cifrado de datos, debe incluir la siguiente declaración en su valor predeterminado AmazonDataZoneDomainExecutionRole.
-
Acceso al servicio: elija la opción Usar un rol de servicio personalizado y, a continuación, elija AmazonDataZoneDomainExecutionRole en el menú desplegable.
-
En Configuración rápida, seleccione Configurar esta cuenta para el consumo y la publicación de datos. Esta opción habilita los esquemas integrados de Amazon DataZone para el lago de datos y el almacenamiento de datos, y configura los permisos y recursos necesarios para completar el resto de los pasos de este flujo de trabajo. Para obtener más información sobre esquemas de Amazon DataZone, consulte Terminología y conceptos de Amazon DataZone.
-
No realice cambios en el resto de los campos de Detalles de los permisos y Etiquetas y, a continuación, seleccione Crear dominio.
-
-
Una vez que el dominio se haya creado correctamente, selecciónelo y, en la página de resumen del dominio, anote la URL del portal de datos correspondiente a este dominio. Puede usar esta URL para acceder a su portal de datos de Amazon DataZone y completar el resto de los pasos de este flujo de trabajo.
nota
En la versión actual de Amazon DataZone, una vez creado el dominio, la URL generada para el portal de datos no se puede modificar.
La creación del dominio puede tardar varios minutos en completarse. Espere a que el dominio tenga el estado de Disponible antes de ir al paso siguiente.
Paso 2: Crear el proyecto de publicación
En la siguiente sección se describen los pasos para crear el proyecto de publicación en este flujo de trabajo.
-
Cuando haya completado el Paso 1, vaya al portal de datos de Amazon DataZone con la URL del portal de datos e inicie sesión mediante el inicio de sesión único (SSO) o con sus credenciales de AWS.
-
Elija Crear proyecto, especifique el nombre de proyecto (por ejemplo, para este flujo de trabajo, puede nombrarlo SalesDataPublishingProject) y no realice cambios en el resto de los campos. A continuación, elija Crear.
Paso 3: Crear el entorno
En la siguiente sección se describen los pasos para crear un entorno en este flujo de trabajo.
-
Cuando complete el Paso 2 anterior, en el portal de datos de Amazon DataZone, elija el proyecto
SalesDataPublishingProjectque ha creado en el paso anterior, elija la pestaña Entornos y, a continuación, elija Crear entorno. -
En la página Crear entorno, especifique lo siguiente y, a continuación, elija Crear entorno.
-
Nombre: especifique el nombre del entorno. Para este tutorial, puede llamarlo
Default data warehouse environment. -
Descripción: especifique una descripción para el entorno.
-
Perfil de entorno: elija el perfil de entorno DataWarehouseProfile.
-
Proporcione el nombre del clúster de Amazon Redshift, el nombre de la base de datos y el ARN secreto del clúster de Amazon Redshift en el que se almacenan los datos.
nota
Asegúrese de que el secreto en AWS Secrets Manager incluya las siguientes etiquetas (clave/valor):
-
Para el clúster de Amazon Redshift, datazone.rs.cluster: <cluster_name:database name>
Para el grupo de trabajo Amazon Redshift sin servidor: datazone.rs.workgroup: <workgroup_name:database_name>
-
AmazonDataZoneProject: <projectID>
-
AmazonDataZoneDomain: <domainID>
Para obtener más información, consulte Almacenamiento de credenciales de base de datos en AWS Secrets Manager.
El usuario de la base de datos que proporcione en AWS Secrets Manager debe tener permisos de superusuario.
-
-
Paso 4: Producir datos para su publicación
En la siguiente sección se describen los pasos para la producción de datos para publicación en este flujo de trabajo.
-
Cuando complete el paso 3, en el portal de datos de Amazon DataZone, elija el proyecto
SalesDataPublishingProjecty, a continuación, en el panel de la derecha, en Herramientas de análisis, elija Amazon Redshift. Esto abre el editor de consultas de Amazon Redshift con las credenciales de su proyecto para la autenticación. -
En este tutorial, utilizará el script de consulta Create Table as Select (CTAS) para crear una tabla nueva que desee publicar en Amazon DataZone. En su editor de consultas, ejecute este script de CTAS para crear una tabla
mkt_sls_tableque pueda publicar y poner a disposición para su búsqueda y suscripción.CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561Asegúrese de que la tabla mkt_sls_table se ha creado correctamente. Ahora tiene un activo de datos que se puede publicar en el catálogo de Amazon DataZone.
Paso 5: Reunir metadatos de Amazon Redshift
En la siguiente sección se describen los pasos para recopilar metadatos de Amazon Redshift.
-
Una vez que haya completado el paso 4 anterior, en el portal de datos de Amazon DataZone, elija el proyecto
SalesDataPublishingProject, elija la pestaña Datos y, a continuación, elija Orígenes de datos. -
Elija el origen que se creó como parte del proceso de creación del entorno.
-
Seleccione Ejecutar junto al menú desplegable Acción y, a continuación, seleccione el botón de actualización. Una vez finalizada la ejecución del origen de datos, los activos se añaden al inventario de Amazon DataZone.
Paso 6: Seleccione y publique el activo de datos
En la siguiente sección se describen los pasos para seleccionar y publicar el activo de datos en este flujo de trabajo.
-
Una vez haya completado el paso 5 anterior, en el portal de datos de Amazon DataZone, elija el proyecto
SalesDataPublishingProject, elija la pestaña Datos y, a continuación, elija Datos de inventario, y localice la tablamkt_sls_table. -
Abra la página de detalles del activo
mkt_sls_tablepara ver los nombres empresariales generados automáticamente. Seleccione el icono de metadatos generados automáticamente para ver los nombres generados automáticamente para los activos y las columnas. Puede aceptar o rechazar cada nombre de forma individual o elegir Aceptar todos para aplicar los nombres generados. Si lo desea, también puede añadir el formulario de metadatos disponible a su activo y seleccionar los términos del glosario para clasificar los datos. -
Elija Publicar para publicar el activo
mkt_sls_table.
Paso 7: Crear el proyecto para el análisis de datos
En esta sección se describen los pasos necesarios para crear el proyecto para el análisis de datos en este flujo de trabajo.
-
Cuando haya completado el paso 6, en el portal de datos de Amazon DataZone, elija Crear proyecto.
-
En la página Crear proyecto, especifique el nombre del proyecto (por ejemplo, para este flujo de trabajo, puede llamarlo MarketingDataAnalysisProject). A continuación, no realice cambios en el resto de los campos y elija Crear.
Paso 8: Crear un entorno para el análisis de datos
En la siguiente sección se describen los pasos para crear un entorno para el análisis de datos en este flujo de trabajo.
-
Cuando complete el Paso 7, en el portal de datos de Amazon DataZone, elija el proyecto
MarketingDataAnalysisProjectque ha creado en el paso anterior, elija la pestaña Entornos y, a continuación, elija Añadir entorno. -
En la página Crear entorno, especifique lo siguiente y, a continuación, elija Crear entorno.
-
Nombre: especifique el nombre del entorno. Para este tutorial, puede llamarlo
Default data warehouse environment. -
Descripción: especifique una descripción para el entorno.
-
Perfil de entorno: elija el perfil de entorno DataWarehouseProfile.
-
Proporcione el nombre del clúster de Amazon Redshift, el nombre de la base de datos y el ARN secreto del clúster de Amazon Redshift en el que se almacenan los datos.
nota
Asegúrese de que el secreto en AWS Secrets Manager incluya las siguientes etiquetas (clave/valor):
-
Para el clúster de Amazon Redshift, datazone.rs.cluster: <cluster_name:database name>
Para el grupo de trabajo Amazon Redshift sin servidor: datazone.rs.workgroup: <workgroup_name:database_name>
-
AmazonDataZoneProject: <projectID>
-
AmazonDataZoneDomain: <domainID>
Para obtener más información, consulte Almacenamiento de credenciales de base de datos en AWS Secrets Manager.
El usuario de la base de datos que proporcione en AWS Secrets Manager debe tener permisos de superusuario.
-
-
Para este tutorial, no realice cambios en el resto de los campos.
-
Paso 9: Buscar en el catálogo de datos y suscribirse a los datos
En la siguiente sección se describen los pasos para buscar en el catálogo de datos y para suscribirse a los datos.
-
Cuando complete el paso 8, en el portal de datos de Amazon DataZone, busque los activos de datos con palabras clave (p. ej., “catálogo” o “ventas”) en la barra Buscar del portal de datos.
Si es necesario, aplique filtros o clasifíquelos y, una vez que encuentre el activo de Datos de ventas del producto, podrá seleccionarlo para abrir la página de detalles del activo.
-
En la página de detalles del activo de Datos de ventas del producto, elija Suscribirse.
-
En el cuadro de diálogo, elija su proyecto de consumidor en el menú desplegable, indique el motivo de la solicitud de acceso y, a continuación, seleccione Suscribirse.
Paso 10: Aprobar la solicitud de suscripción
En esta sección se describen los pasos para aprobar la solicitud de suscripción en este flujo de trabajo.
-
Cuando complete el paso 9, en el portal de datos de Amazon DataZone, elija el proyecto SalesDataPublishingProject con el que publicó su activo.
-
Elija la pestaña Datos, luego Datos publicados y, por último, Solicitudes entrantes.
-
Seleccione el enlace para ver la solicitud y, a continuación, elija Aprobar.
Paso 11: Crear una consulta y analizar los datos en Amazon Redshift
Ahora que ha publicado correctamente un activo en el catálogo de Amazon DataZone y se ha suscrito a él, podrá analizarlo.
-
En el portal de datos de Amazon DataZone, en el panel derecho, haga clic en el enlace de Amazon Redshift. Esto abrirá el editor de consultas de Amazon Redshift con las credenciales de su proyecto para la autenticación.
-
Ahora puede ejecutar una consulta (instrucción de selección) en la tabla suscrita. Puede hacer clic en la tabla (opción con tres puntos verticales) y seleccionar la vista previa para que la instrucción seleccionada aparezca en la pantalla del editor. Ejecute la consulta para ver los resultados: