Configurazione di un obiettivo di integrazione zero-ETL - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione di un obiettivo di integrazione zero-ETL

Esistono diverse opzioni offerte da AWS quando si configura un target per un'integrazione zero-ETL. L'obiettivo può essere un Amazon Redshift data warehouse crittografato o un catalogo Amazon SageMaker Lakehouse.

Prima di selezionare la destinazione per l'integrazione zero-ETL, devi configurare una delle seguenti risorse di destinazione.

Le opzioni di configurazione per una destinazione in un'integrazione zero-ETL includono:

Nota

Non è possibile modificare la destinazione di un'integrazione zero-ETL dopo la creazione.

Configurazione di un catalogo Amazon SageMaker Lakehouse con un normale storage S3

Questa sezione descrive i prerequisiti e i passaggi di configurazione per configurare un normale bucket Amazon S3 come storage per la destinazione del catalogo SageMaker Amazon Lakehouse in un'integrazione zero-ETL.

Prerequisiti per la configurazione di un'integrazione

Prima di creare un'integrazione zero-ETL con un catalogo Amazon SageMaker Lakehouse utilizzando il normale storage S3, devi completare le seguenti attività di configurazione:

  1. Configura un database AWS Glue

  2. Fornisci la politica RBAC di Catalog

  3. Crea il ruolo IAM di destinazione

Dopo aver configurato il catalogo Amazon SageMaker Lakehouse con il normale storage Amazon S3, puoi procedere con il completamento della configurazione dell'integrazioneConfigurazione dell'integrazione con il target.

Configurazione delle tabelle Amazon S3 come destinazione

Questa sezione descrive i prerequisiti e i passaggi di configurazione per configurare Amazon S3 Tables come destinazione per l'integrazione zero-ETL.

Prerequisiti per la configurazione di un'integrazione

Prima di creare un'integrazione zero-ETL con Amazon S3 Tables come destinazione, devi completare le seguenti attività di configurazione:

  1. Configura il bucket di tabelle Amazon S3

  2. Fornisci la politica RBAC di Catalog

  3. Crea il ruolo IAM di destinazione

Configura il bucket di tabelle Amazon S3

  1. Crea un bucket di tabelle S3 nel tuo account seguendo le istruzioni in Getting started with Amazon S3 Tables.

  2. Abilita le integrazioni di Analytics con il tuo bucket S3-Table seguendo queste istruzioni: Integrazione dei servizi con AWS Amazon S3 Tables.

Fornisci la politica RBAC del catalogo

Le seguenti autorizzazioni devono essere aggiunte alla policy RBAC del catalogo per consentire le integrazioni tra l'origine e la destinazione del catalogo delle tabelle Amazon S3.

La politica delle risorse di Target AWS Glue Catalog deve includere le autorizzazioni del servizio Glue per AuthorizeInboundIntegration. Inoltre, è richiesta l' CreateInboundIntegration autorizzazione sul principale di origine che crea l'integrazione o nella politica AWS Glue delle risorse di destinazione.

Nota

In uno scenario che coinvolge più account, sia la policy relativa alle risorse dell'indirizzo principale che quella AWS Glue del catalogo di destinazione devono includere i CreateInboundIntegration permessi di accesso alla risorsa.

{ "Version": "2012-10-17", "Statement": [ { // Optional for same account but mandatory for cross account scenarios // Allow Alice to create Integration on Target Catalog "Principal": { "AWS": [ "arn:aws:iam::<source-account-id>:user/Alice" ] }, "Effect": "Allow", "Action": [ "glue:CreateInboundIntegration" ], "Resource": [ "arn:aws:glue:<region>:<Target-Account-Id>:catalog/<s3tablescatalog>/*" ], "Condition": { "StringLike": { "aws:SourceArn": "arn:aws:dynamodb:<region>:<Account>:table/<table-name>" } } }, { // Required: Allow Glue to Authorize the Inbound Integration on behalf of Bob "Principal": { "Service": [ "glue.amazonaws.com" ] }, "Effect": "Allow", "Action": [ "glue:AuthorizeInboundIntegration" ], "Resource": [ "arn:aws:glue:<region>:<Target-Account-Id>:catalog/<s3tablescatalog>/*" ], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:dynamodb:<region>:<account-id>:table/<table-name>" } } } ] }
Nota

<s3tablescatalog>Sostituiscilo con il nome del catalogo delle tue tabelle S3.

Crea un ruolo IAM target

Crea un ruolo IAM di destinazione con le seguenti autorizzazioni e relazioni di fiducia:

Policy IAM di esempio:

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "s3tables:ListTableBuckets", "s3tables:GetTableBucket", "s3tables:GetTableBucketEncryption", "s3tables:GetNamespace", "s3tables:CreateNamespace", "s3tables:ListNamespaces", "s3tables:CreateTable", "s3tables:GetTable", "s3tables:GetTableEncryption", "s3tables:ListTables", "s3tables:GetTableMetadataLocation", "s3tables:UpdateTableMetadataLocation", "s3tables:GetTableData", "s3tables:PutTableData" ], "Resource": "arn:aws:s3tables:<region>:<account-id>:bucket/*", "Effect": "Allow" }, { "Action": [ "cloudwatch:PutMetricData" ], "Resource": "*", "Condition": { "StringEquals": { "cloudwatch:namespace": "AWS/Glue/ZeroETL" } }, "Effect": "Allow" }, { "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:PutLogEvents" ], "Resource": "*", "Effect": "Allow" } ] }

Aggiungi la seguente politica di fiducia nel ruolo IAM di Target per consentire al AWS Glue servizio di assumerla:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
Nota

Assicurati che non sia presente un'istruzione DENY esplicita per questo ruolo IAM di destinazione nella politica delle risorse del bucket S3-Tables. Un DENY esplicito sovrascriverebbe qualsiasi autorizzazione ALLOW e impedirebbe il corretto funzionamento dell'integrazione.

Configurazione di un catalogo Amazon SageMaker Lakehouse con storage gestito Amazon Redshift

Questa sezione descrive i prerequisiti e i passaggi di configurazione per configurare un catalogo Amazon SageMaker Lakehouse con storage Amazon Redshift gestito (RMS) come destinazione per l'integrazione zero-ETL.

Prerequisiti per la configurazione di un'integrazione

Prima di creare un'integrazione zero-ETL con un catalogo Amazon SageMaker Lakehouse utilizzando lo storage gestito Redshift, devi completare le seguenti attività di configurazione:

  1. Configura un cluster o un gruppo di lavoro Serverless Amazon Redshift

  2. Registra l' Amazon Redshift integrazione con Lake Formation

  3. Crea un catalogo gestito in Lake Formation

  4. Configurazione delle autorizzazioni IAM

Configurazione dello storage Amazon Redshift gestito

Per configurare lo storage Amazon Redshift gestito per l'integrazione Zero-ETL:

  1. Crea o usa un cluster Amazon Redshift o un gruppo di lavoro Serverless esistente. Assicurati che il enable_case_sensitive_identifier parametro sia attivato per il Amazon Redshift gruppo di lavoro o il cluster di destinazione affinché l'integrazione abbia successo. Per ulteriori informazioni sull'attivazione della distinzione tra maiuscole e minuscole, consulta Attiva la distinzione tra maiuscole e minuscole per il tuo data warehouse nella guida alla gestione di Amazon Redshift.

  2. Registra un'integrazione da Redshift nel catalogo in. AWS Lake Formation Vedi Registrazione di Amazon Redshift cluster e namespace nel Data Catalog. AWS Glue

  3. Crea un catalogo federato o gestito in. AWS Lake Formation Per ulteriori informazioni, consultare:

  4. Configura le autorizzazioni IAM per il ruolo di destinazione. Il ruolo richiede le autorizzazioni per accedere alle risorse di Redshift e Lake Formation. Come minimo, il ruolo dovrebbe avere:

    • Autorizzazioni per accedere al cluster o al gruppo di lavoro Redshift

    • Autorizzazioni per accedere al catalogo Lake Formation

    • Autorizzazioni per creare e gestire tabelle nel catalogo

    • CloudWatch e CloudWatch registra le autorizzazioni per il monitoraggio

Dopo aver configurato il catalogo Amazon SageMaker Lakehouse con lo storage gestito Amazon Redshift, puoi procedere Configurazione dell'integrazione con il target al completamento della configurazione dell'integrazione.

Configurazione di un obiettivo di data warehouse Amazon Redshift

Questa sezione descrive i prerequisiti e i passaggi di configurazione per configurare un Amazon Redshift data warehouse come destinazione per l'integrazione zero-ETL.

Prerequisiti per la configurazione di un'integrazione

Prima di creare un'integrazione zero-ETL con una destinazione di Amazon Redshift data warehouse, è necessario completare le seguenti attività di configurazione:

  1. Configurare un Amazon Redshift cluster o un gruppo di lavoro Serverless

  2. Configura la distinzione tra mai

  3. Configurazione delle autorizzazioni IAM

Configurazione del Amazon Redshift data warehouse

Per configurare un Amazon Redshift data warehouse per l'integrazione Zero-ETL:

  1. Vai alla Amazon Redshift console e fai clic su Crea cluster o utilizza un cluster esistente. Per Amazon Redshift Serverless, fai clic su Crea gruppo di lavoro.

  2. Se crei un nuovo cluster, scegli una dimensione del cluster appropriata e assicurati che il cluster sia crittografato. Per Serverless, configura le impostazioni del gruppo di lavoro in base alle tue esigenze.

  3. Assicurati che il enable_case_sensitive_identifier parametro sia attivato per il Amazon Redshift gruppo di lavoro o il cluster di destinazione affinché l'integrazione abbia successo. Per ulteriori informazioni sull'attivazione della distinzione tra maiuscole e minuscole, consulta Attiva la distinzione tra maiuscole e minuscole per il tuo data warehouse nella guida alla gestione di Amazon Redshift.

  4. Configura le autorizzazioni IAM per consentire all'integrazione zero-ETL di accedere al tuo data warehouse. Amazon Redshift Dovrai creare un ruolo IAM con le seguenti autorizzazioni:

    • Autorizzazioni per accedere al Amazon Redshift cluster o al gruppo di lavoro

    • Autorizzazioni per creare e gestire database e tabelle in Amazon Redshift

    • CloudWatch e Amazon CloudWatch registra le autorizzazioni per il monitoraggio

  5. Una volta completata la configurazione del Amazon Redshift gruppo di lavoro o del cluster, è necessario configurare il data warehouse per le integrazioni zero-ETL. Per ulteriori informazioni, consulta la sezione Guida introduttiva alle integrazioni zero-ETL nella Amazon Redshift Management Guide.

Nota

Quando si utilizza un Amazon Redshift data warehouse come destinazione, l'integrazione crea uno schema nel database specificato per archiviare i dati replicati. Il nome dello schema deriva dal nome dell'integrazione.

Dopo aver configurato il Amazon Redshift data warehouse, puoi procedere con il Configurazione dell'integrazione con il target completamento della configurazione dell'integrazione.

Configurazione dell'integrazione con il target

Dopo aver configurato le risorse di destinazione, selezionato la connessione e specificato un ruolo IAM di origine, segui questi passaggi per completare la configurazione dell'integrazione:

  1. Specificate la destinazione che avete configurato nei passaggi precedenti.

  2. Seleziona l'opzione AWS Glue Correggi per me. Per il Amazon Redshift bersaglio, questo consentirà di:

    • Applicare un servizio principale autorizzato sul Amazon Redshift cluster o sul gruppo di lavoro Serverless.

    • Applica un ARN AWS Glue di origine autorizzato al Amazon Redshift cluster o al gruppo di lavoro Serverless.

    • Associa un nuovo gruppo di parametri a. enable_case_sensitive_identifier = true

    La schermata mostra la selezione di un obiettivo in un'integrazione zero-ETL.
  3. Fornisci il nome dell'integrazione e scegli Crea e avvia integrazione.

  4. Una volta che l'integrazione è attiva, vai alla pagina dei dettagli dell'integrazione e scegli Crea un database dall'integrazione.

  5. Infine, puoi accedere all'editor di query di Redshift e connetterti al tuo database per convalidare lo snapshot e i dati incrementali.

Nota

È possibile utilizzare solo caratteri alfanumerici minuscoli e caratteri di sottolineatura nel namespace o nel nome del catalogo. Questo è diverso da ciò che consente il AWS Glue Data Catalog per creare un database con qualsiasi nome (compresi i caratteri speciali).