Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Prerequisiti per l'impostazione di un'integrazione Zero-ETL
La configurazione di un'integrazione tra l'origine e la destinazione richiede alcuni prerequisiti come la configurazione dei ruoli IAM che AWS Glue utilizzano per accedere ai dati dall'origine e scrivere sulla destinazione e l'uso di chiavi KMS per crittografare i dati nella posizione intermedia o di destinazione.
Argomenti
Impostazione delle risorse dell'origine
Eseguire le seguenti attività di configurazione in base alle esigenze dell'origine.
Impostazione del ruolo dell'origine
Questa sezione descrive come assegnare un ruolo dell'origine per consentire all'integrazione Zero-ETL di accedere alla connessione. Ciò è applicabile anche solo per le origini SaaS.
Nota
Per limitare l'accesso solo a poche connessioni, è possibile creare prima la connessione per ottenere l'ARN della connessione. Per informazioni, consulta Configurazione di un'origine per un'integrazione Zero-ETL.
Creare un ruolo con le autorizzazioni per l'integrazione per accedere alla connessione:
Policy di trust:
Impostazione delle risorse di destinazione
Esegui le seguenti attività di configurazione come richiesto per AWS Glue Data Catalog o Amazon Redshift Data Warehouse Integration Target.
Per le integrazioni con un target di AWS Glue database:
Per le integrazioni con un target Amazon Redshift datawarehouse:
Configurazione di un database AWS Glue
Per le integrazioni che utilizzano un AWS Glue database:
Per configurare un database di destinazione nel AWS Glue Data Catalog con una posizione Amazon S3:
Nella home page della AWS Glue console, seleziona Database in Data Catalog.
Scegliere Aggiungi database in alto a destra. Se è stato già creato un database, assicurarsi che sia impostata la posizione con l'URI di Amazon S3 per il database.
Inserire un nome e una Posizione (URI Amazon S3). Si prega di notare che la posizione è necessaria per l'integrazione Zero-ETL. Al termine, fare clic su Crea database.
Nota
Il bucket Amazon S3 deve trovarsi nella stessa regione del database. AWS Glue
Per informazioni sulla creazione di un nuovo database in AWS Glue, consulta Guida introduttiva al AWS Glue Data Catalog.
È possibile anche usare la CLI create-database per creare il database in AWS Glue. Tenere presente che LocationUri in --database-input è obbligatorio.
Ottimizzazione delle tabelle Iceberg
Una volta creata una tabella AWS Glue nel database di destinazione, puoi abilitare la compattazione per velocizzare le query in Amazon Athena. Per informazioni sulla configurazione delle risorse (Ruolo IAM) per la compattazione, consultare Prerequisiti per l'ottimizzazione delle tabelle.
Fornire una policy RBAC (Resource Based Access) per il catalogo
Per le integrazioni che utilizzano un AWS Glue database, aggiungi le seguenti autorizzazioni alla politica RBAC del catalogo per consentire le integrazioni tra origine e destinazione.
Nota
Per le integrazioni tra più account, sia la policy dei ruoli di Alice (utente che crea l'integrazione) che la policy delle risorse del catalogo devono consentire a glue:CreateInboundIntegration l'accesso alla risorsa. Per lo stesso account è sufficiente una policy in materia di risorse o una policy di ruolo che consenta a glue:CreateInboundIntegration l'utilizzo della risorsa. Entrambi gli scenari devono comunque consentire a glue.amazonaws.com per glue:AuthorizeInboundIntegration.
È possibile accedere alle Impostazioni del catalogo in Data Catalog. Fornire quindi le seguenti autorizzazioni e inserire le informazioni mancanti.
Creazione di un ruolo IAM di destinazione
Creare un ruolo IAM con le seguenti autorizzazioni e relazioni di fiducia:
Aggiungi la seguente politica di attendibilità per consentire al AWS Glue servizio di assumere il ruolo:
Creazione di un data warehouse Amazon Redshift
Se la destinazione dell'integrazione Zero-ETL è un data warehouse Amazon Redshift, creare il data warehouse se non se ne possiede già uno. Per creare un gruppo di lavoro Amazon Redshift serverless con un namespace, consulta Creazione di un gruppo di lavoro con un namespace. Per creare un cluster Amazon Redshift, consulta Creazione di un cluster.
Il Amazon Redshift gruppo di lavoro o il cluster di destinazione deve avere il enable_case_sensitive_identifier parametro attivato affinché l'integrazione abbia successo. Per ulteriori informazioni sull’attivazione della distinzione tra maiuscole e minuscole, consulta Attivazione della distinzione tra maiuscole e minuscole per il data warehouse nella Guida alla gestione di Amazon Redshift.
Una volta completata la configurazione Amazon Redshift del gruppo di lavoro o del cluster, è necessario configurare il data warehouse. Per ulteriori informazioni, consulta Guida introduttiva alle integrazioni zero-ETL nella Guida alla Amazon Redshift gestione.
Configurazione di un VPC per l'integrazione Zero-ETL
Per configurare un VPC per l'integrazione Zero-ETL:
Vai su VPC > Tuo VPCs e scegli Crea VPC.
Selezionare VPC e altro.
Impostare il nome del VPC.
Imposta il IPv4 CIDR: 10.0.0.0/16.
Impostare il numero di AZ su 1.
Impostare il numero di sottoreti pubbliche e private su 1.
Impostare i Gateway NAT su Nessuno.
Impostare gli Endpoint VPC su Gateway S3.
Abilitare i nomi host DNS e la risoluzione DNS.
Andare su Endpoint e scegliere Crea Endpoint.
Creare endpoint per questi servizi nella sottorete privata del proprio VPC (utilizzare il gruppo di sicurezza predefinito):
com.amazonaws.us-east-1.lambda
com.amazonaws.us-east-1.glue
com.amazonaws.us-east-1.sts
AWS Glue Crea la connessione:
Andare su AWS Glue > Connessioni dati e scegliere Crea connessione.
Selezionare Rete.
Selezionare il VPC, la Sottorete (privata) e il Gruppo di sicurezza predefinito che sono stati creati.
Impostazione del ruolo di destinazione per il VPC
Il ruolo di destinazione deve avere queste autorizzazioni (oltre alle altre autorizzazioni richieste da Zero- ETl integrations):
Impostazione delle proprietà delle risorse della leg di destinazione
Se utilizzi la CLI, imposta le proprietà delle risorse della gamba di destinazione sul AWS Glue database di destinazione che hai creato. Passa l'ARN del ruolo di destinazione e il nome della AWS Glue connessione.
aws glue create-integration-resource-property \ --resource-arn arn:aws:glue:us-east-1:<account-id>:database/exampletarget \ --target-processing-properties '{"RoleArn" : "arn:aws:iam::<account-id>:role/example-role", "ConnectionName":"example-vpc-3"}' \ --endpoint-url https://example.amazonaws.com --region us-east-1
Eventuali errori del client
Di seguito sono riportati i possibili errori del client per un'integrazione configurata con un VPC.
| Messaggio di errore | Operazione richiesta |
|---|---|
| Il ruolo fornito non è autorizzato a eseguire Glue: GetConnection on connection. Aggiungere questa autorizzazione alla policy dei ruoli, quindi attendere il ripristino dell'integrazione. | Aggiornamento policy dei ruoli |
| Il ruolo fornito non è autorizzato a eseguire ec2:DescribeSubnets. Aggiungere questa autorizzazione alla policy dei ruoli, quindi attendere il ripristino dell'integrazione. | Aggiornamento policy dei ruoli |
| Il ruolo fornito non è autorizzato a eseguire ec2:. DescribeSecurityGroups Aggiungere questa autorizzazione alla policy dei ruoli, quindi attendere il ripristino dell'integrazione. | Aggiornamento policy dei ruoli |
| Il ruolo fornito non è autorizzato a eseguire ec2:. DescribeVpcEndpoints Aggiungere questa autorizzazione alla policy dei ruoli, quindi attendere il ripristino dell'integrazione. | Aggiornamento policy dei ruoli |
| Il ruolo fornito non è autorizzato a eseguire ec2:. DescribeRouteTables Aggiungere questa autorizzazione alla policy dei ruoli, quindi attendere il ripristino dell'integrazione. | Aggiornamento policy dei ruoli |
| Il ruolo fornito non è autorizzato a eseguire ec2:. CreateTags Aggiungere questa autorizzazione alla policy dei ruoli, quindi attendere il ripristino dell'integrazione. | Aggiornamento policy dei ruoli |
| Il ruolo fornito non è autorizzato a eseguire ec2:. CreateNetworkInterface Aggiungere questa autorizzazione alla policy dei ruoli, quindi attendere il ripristino dell'integrazione. | Aggiornamento policy dei ruoli |
| La sottorete di connessione fornita non contiene un endpoint S3 o un gateway NAT valido. Aggiornare la sottorete, quindi attendere il ripristino dell'integrazione. | Aggiornare gli endpoint della sottorete VPC |
| Sottorete di connessione non trovata. Aggiornare la sottorete di connessione, quindi attendere il ripristino dell'integrazione. | Aggiorna connessione AWS Glue |
| Gruppo di sicurezza della connessione non trovato. Aggiornare il gruppo di sicurezza della connessione, quindi attendere il ripristino dell'integrazione. | Aggiorna AWS Glue connessione |
| Impossibile connettersi a S3 tramite la connessione VPC fornita. Aggiornare le configurazioni delle sottoreti, quindi attendere il ripristino dell'integrazione. | Aggiornare gli endpoint della sottorete VPC |
| Impossibile connettersi a Lambda tramite la connessione VPC fornita. Aggiornare le configurazioni delle sottoreti, quindi attendere il ripristino dell'integrazione. | Aggiornare gli endpoint della sottorete VPC |
Configurazione di un'integrazione Zero-ETL tra account
Per configurare un'integrazione Zero-ETL tra account:
Configurare una policy delle risorse di destinazione come descritto in Fornire una policy RBAC (Resource Based Access) per il catalogo. Assicurarsi che il ruolo dell'account di origine sia esplicitamente consentito sulla risorsa di destinazione.
Verificare che il ruolo dell'account di origine (il ruolo utilizzato per creare l'integrazione) abbia quanto segue:
Creare l'integrazione come descritto in Creazione di un'integrazione.