Configuración de un destino de integración sin ETL
Al configurar un destino de una integración sin ETL, AWS ofrece varias opciones. El destino puede ser un almacén de datos cifrado de Amazon Redshift o un catálogo de Amazon SageMaker Lakehouse.
Antes de seleccionar el destino para la integración sin ETL, debe configurar uno de los siguientes recursos de destino.
Las opciones de configuración de un destino en una integración sin ETL incluyen:
Un catálogo y una base de datos de Amazon SageMaker Lakehouse configurados con el almacenamiento regular de Amazon S3. Consulte Configuración de un catálogo de Amazon SageMaker Lakehouse con el almacenamiento regular de S3.
Un catálogo y una base de datos de Amazon SageMaker Lakehouse configurados con el bucket de Tablas de Amazon S3. Consulte Configuración de las tablas de Amazon S3 como destino.
Un catálogo y una base de datos de Amazon SageMaker Lakehouse configurados con el almacenamiento administrado de Amazon Redshift. Consulte Configuración de un catálogo de Amazon SageMaker Lakehouse con el almacenamiento administrado de Amazon Redshift.
Un almacenamiento de datos de Amazon Redshift identificado por un espacio de nombres de Redshift. Consulte Configuración de un destino de almacén de datos de Amazon Redshift.
nota
No puede modificar el destino de una integración sin ETL después de su creación.
Configuración de un catálogo de Amazon SageMaker Lakehouse con el almacenamiento regular de S3
En esta sección se describen los requisitos previos y los pasos de configuración para configurar un bucket de Amazon S3 regular como almacenamiento para el destino del catálogo de Amazon SageMaker Lakehouse en una integración sin ETL.
Requisitos previos para configurar una integración
Antes de crear una integración sin ETL con un catálogo de Amazon SageMaker Lakehouse mediante el uso del almacenamiento regular de S3, debe completar las siguientes tareas de configuración:
Configurar una base de datos de AWS Glue
Proporcionar la política de RBAC del catálogo
Crear el rol de IAM de destino
Tras configurar el catálogo de Amazon SageMaker Lakehouse con el almacenamiento regular de Amazon S3, puede ir a Configuración de la integración con su destino para completar la configuración de la integración.
Configuración de las tablas de Amazon S3 como destino
En esta sección se describen los requisitos previos y los pasos de configuración para configurar las tablas de Amazon S3 como destino para su integración sin ETL.
Requisitos previos para configurar una integración
Antes de crear una integración sin ETL con las tablas de Amazon S3 como destino, debe completar las siguientes tareas de configuración:
Configurar el bucket de las tablas de Amazon S3
Proporcionar la política de RBAC del catálogo
Crear el rol de IAM de destino
Configurar el bucket de las tablas de Amazon S3
Cree un bucket de las tablas de S3 en su cuenta siguiendo las instrucciones de Introducción a las tablas de Amazon S3.
Habilite las integraciones de análisis con el bucket de las tablas de S3 siguiendo estas instrucciones: Integración de los servicios de AWS con las tablas de Amazon S3.
Proporcionar la política de RBAC del catálogo
Los siguientes permisos deben añadirse a la política de RBAC del catálogo para permitir las integraciones entre el origen y el destino del catálogo de las tablas de Amazon S3.
La política de recursos del catálogo de AWS Glue de destino debe incluir los permisos del Servicio Glue para AuthorizeInboundIntegration. Además, se requiere el permiso CreateInboundIntegration en la entidad principal de origen que crea la integración o en la política de recursos de AWS Glue de destino.
nota
En un escenario con varias cuentas, tanto la entidad de origen como la política de recursos del catálogo de AWS Glue de destino deben incluir los permisos glue:CreateInboundIntegration en el recurso.
{ "Version": "2012-10-17", "Statement": [ { // Optional for same account but mandatory for cross account scenarios // Allow Alice to create Integration on Target Catalog "Principal": { "AWS": [ "arn:aws:iam::<source-account-id>:user/Alice" ] }, "Effect": "Allow", "Action": [ "glue:CreateInboundIntegration" ], "Resource": [ "arn:aws:glue:<region>:<Target-Account-Id>:catalog/<s3tablescatalog>/*" ], "Condition": { "StringLike": { "aws:SourceArn": "arn:aws:dynamodb:<region>:<Account>:table/<table-name>" } } }, { // Required: Allow Glue to Authorize the Inbound Integration on behalf of Bob "Principal": { "Service": [ "glue.amazonaws.com" ] }, "Effect": "Allow", "Action": [ "glue:AuthorizeInboundIntegration" ], "Resource": [ "arn:aws:glue:<region>:<Target-Account-Id>:catalog/<s3tablescatalog>/*" ], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:dynamodb:<region>:<account-id>:table/<table-name>" } } } ] }
nota
Reemplace <s3tablescatalog>
con el nombre del catálogo de sus tablas de S3.
Crear el rol de IAM de destino
Cree un rol de IAM de destino con los siguientes permisos y relaciones de confianza:
Política de IAM de ejemplo:
{ "Version": "2012-10-17", "Statement": [ { "Action": [ "s3tables:ListTableBuckets", "s3tables:GetTableBucket", "s3tables:GetTableBucketEncryption", "s3tables:GetNamespace", "s3tables:CreateNamespace", "s3tables:ListNamespaces", "s3tables:CreateTable", "s3tables:GetTable", "s3tables:GetTableEncryption", "s3tables:ListTables", "s3tables:GetTableMetadataLocation", "s3tables:UpdateTableMetadataLocation", "s3tables:GetTableData", "s3tables:PutTableData" ], "Resource": "arn:aws:s3tables:<region>:<account-id>:bucket/*", "Effect": "Allow" }, { "Action": [ "cloudwatch:PutMetricData" ], "Resource": "*", "Condition": { "StringEquals": { "cloudwatch:namespace": "AWS/Glue/ZeroETL" } }, "Effect": "Allow" }, { "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:PutLogEvents" ], "Resource": "*", "Effect": "Allow" } ] }
Agregue la siguiente política de confianza en el rol de IAM de destino para permitir que el servicio AWS Glue asuma el rol:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
nota
Asegúrese de que no haya una declaración DENY explícita para este rol de IAM de destino en la política de recursos del bucket de las tablas de S3. Una declaración DENY explícita anularía cualquier permiso ALLOW e impediría que la integración funcionara correctamente.
Configuración de un catálogo de Amazon SageMaker Lakehouse con el almacenamiento administrado de Amazon Redshift
En esta sección se describen los requisitos previos y los pasos de configuración para configurar un catálogo de Amazon SageMaker Lakehouse con almacenamiento administrado de Amazon Redshift (RMS) como destino para la integración sin ETL.
Requisitos previos para configurar una integración
Antes de crear una integración sin ETL con un catálogo de Amazon SageMaker Lakehouse mediante el uso del almacenamiento administrado de Redshift, debe completar las siguientes tareas de configuración:
Configurar un grupo de trabajo sin servidor o clúster de Amazon Redshift
Registrar la integración de Amazon Redshift con Lake Formation
Crear un catálogo administrado en Lake Formation
Configurar los permisos de IAM
Configuración del almacenamiento administrado de Amazon Redshift
Para configurar un almacenamiento administrado de Amazon Redshift para su integración sin ETL:
Cree o utilice un grupo de trabajo sin servidor o un clúster de Amazon Redshift existente. Asegúrese de que el clúster o el grupo de trabajo de Amazon Redshift de destino tenga el parámetro
enable_case_sensitive_identifier
activado para que la integración se complete correctamente. Para obtener más información sobre cómo habilitar la distinción entre mayúsculas y minúsculas, consulte Turn on case sensitivity for your data warehouse en la Guía de administración de Amazon Redshift.Registre una integración de Redshift en el catálogo de AWS Lake Formation. Consulte Registering Amazon Redshift clusters and namespaces to the AWS Glue Data Catalog.
Cree un catálogo federado o administrado en AWS Lake Formation. Para obtener más información, consulte:
Configure los permisos de IAM para el rol de destino. El rol necesita permisos para acceder a los recursos de Redshift y Lake Formation. El rol debe tener, como mínimo, lo siguiente:
Permisos para acceder al clúster o al grupo de trabajo de Redshift
Permisos para acceder al catálogo de Lake Formation
Permisos para crear y administrar tablas en el catálogo
Permisos de los registros de CloudWatch y CloudWatch para la supervisión
Tras configurar el catálogo de Amazon SageMaker Lakehouse con el almacenamiento administrado de Amazon Redshift, puede ir a Configuración de la integración con su destino para completar la configuración de la integración.
Configuración de un destino de almacén de datos de Amazon Redshift
En esta sección se describen los requisitos previos y los pasos de configuración para configurar un almacén de datos de Amazon Redshift como destino para su integración sin ETL.
Requisitos previos para configurar una integración
Antes de crear una integración sin ETL con un destino del almacén de datos de Amazon Redshift, debe completar las siguientes tareas de configuración:
Configurar un grupo de trabajo sin servidor o clúster de Amazon Redshift
Configurar la distinción entre mayúsculas y minúsculas
Configurar los permisos de IAM
Configuración del almacén de datos de Amazon Redshift
Para configurar un almacén de datos de Amazon Redshift en su integración sin ETL:
Navegue a la consola de Amazon Redshift
y haga clic en Crear clúster o use un clúster existente. Para Amazon Redshift sin servidor, haga clic en Crear grupo de trabajo. Si va a crear un clúster nuevo, elija un tamaño de clúster adecuado y asegúrese de que el clúster esté cifrado. Para el servicio sin servidor, ajuste la configuración del grupo de trabajo según sus requisitos.
Asegúrese de que el clúster o el grupo de trabajo de Amazon Redshift de destino tenga el parámetro
enable_case_sensitive_identifier
activado para que la integración se complete correctamente. Para obtener más información sobre cómo habilitar la distinción entre mayúsculas y minúsculas, consulte Turn on case sensitivity for your data warehouse en la Guía de administración de Amazon Redshift.Configure los permisos de IAM para permitir que la integración sin ETL acceda a su almacén de datos de Amazon Redshift. Deberá crear un rol de IAM con los siguientes permisos:
Permisos para acceder al clúster o al grupo de trabajo de Amazon Redshift
Permisos para crear y administrar bases de datos y tablas en Amazon Redshift
Permisos de los registros de CloudWatch y Amazon CloudWatch para la supervisión
Una vez completada la configuración del grupo de trabajo o clúster de Amazon Redshift, debe configurar el almacén de datos para las integraciones sin ETL. Para obtener más información, consulte Introducción a las integraciones sin ETL en la Guía de administración de Amazon Redshift.
nota
Cuando se utiliza un almacén de datos de Amazon Redshift como destino, la integración crea un esquema en la base de datos especificada para almacenar los datos replicados. El nombre del esquema proviene del nombre de la integración.
Tras configurar el almacén de datos de Amazon Redshift, puede ir a Configuración de la integración con su destino para completar la configuración de la integración.
Configuración de la integración con su destino
Tras configurar los recursos de destino, seleccionar la conexión y especificar un rol de IAM de origen, siga estos pasos para completar la configuración de la integración:
Especifique el destino que ha configurado en los pasos anteriores.
Seleccione la opción de AWS Glue Solucionarlo por mí. Para el destino Amazon Redshift, hará lo siguiente:
Aplicar una entidad principal autorizada al grupo de trabajo sin servidor o al clúster de Amazon Redshift.
Aplicar un ARN de origen de AWS Glue autorizado al grupo de trabajo sin servidor o al clúster de Amazon Redshift.
Asociar un nuevo grupo de parámetros con
enable_case_sensitive_identifier = true
.
Proporcione el nombre de la integración y elija Crear e iniciar la integración.
Una vez que la integración esté activa, vaya a la página de detalles de la integración y seleccione Crear una base de datos a partir de la integración.
Por último, puede ir al editor de consultas de Redshift y conectarse a su base de datos para validar la instantánea y los datos incrementales.
nota
Recuerde que solo puede utilizar caracteres alfanuméricos en minúscula y guiones bajos en el nombre del espacio de nombres o del catálogo. Esto es diferente de lo que permite el catálogo de datos de AWS Glue al crear una base de datos con cualquier nombre (incluidos caracteres especiales).