Streaming di dati alle tabelle con Amazon Data Firehose
Amazon Data Firehose è un servizio completamente gestito per la distribuzione di dati di streaming
Completare queste fasi per configurare lo streaming Firehose nelle tabelle dei bucket di tabelle S3:
-
Integrare i bucket di tabelle con i servizi di analisi di AWS.
-
Configurare Firehose per fornire dati nelle tabelle S3. A tale scopo, creare un ruolo di servizio AWS Identity and Access Management (IAM) che consenta a Firehose di accedere alle tabelle.
-
Fornire al ruolo di servizio Firehose autorizzazioni esplicite per la tabella o il namespace di tabelle. Per ulteriori informazioni, consultare Concedere le autorizzazioni di Lake Formation sulle risorse delle tabelle.
-
Creare un flusso Firehose che indirizza i dati alla tabella.
Creazione di un ruolo per Firehose per l'uso delle tabelle S3 come destinazione
Firehose necessita di un ruolo di servizio IAM con autorizzazioni specifiche per accedere alle tabelle AWS Glue e scrivere dati nelle tabelle S3. È necessario fornire questo ruolo IAM quando si crea un flusso Firehose.
Apri la console IAM all'indirizzo https://console.aws.amazon.com/iam/
. -
Nel riquadro di navigazione a sinistra, seleziona Policy.
-
Scegli Crea una policy e scegliere JSON nell'editor delle policy.
-
Aggiungere la seguente policy in linea che concede le autorizzazioni a tutti i database e alle tabelle del catalogo dei dati. Se lo si desidera, è possibile concedere le autorizzazioni solo a tabelle e database specifici. Per utilizzare questa policy, sostituisci
con le tue informazioni.user input placeholdersQuesta policy contiene istruzioni che consentono l'accesso a Kinesis Data Streams, mediante l'invocazione delle funzioni Lambda e l'accesso alle chiavi AWS KMS. Se non si utilizza nessuna di queste risorse, è possibile rimuovere le rispettive istruzioni.
Se la registrazione degli errori è abilitata, Firehose invia anche gli errori di distribuzione dei dati ai flussi e al gruppo di log di CloudWatch. Per questo motivo, è necessario configurare i nomi del gruppo di log e del flusso di log. Per i nomi del gruppo di log e del flusso di log, consulta Monitorare Amazon Data Firehose tramite i log di CloudWatch.
-
Dopo aver creato la policy, creare un ruolo IAM con il servizio AWS come il Tipo di entità attendibile.
-
Per Servizio o caso d'uso scegli Kinesis. Per Caso d'uso scegli Kinesis Firehose.
-
Scegli Successivo, quindi seleziona la policy creata in precedenza.
-
Assegnare un nome al proprio ruolo. Verifica i dettagli del ruolo e scegli Crea ruolo. Il ruolo avrà la seguente policy di attendibilità.
Creazione di un flusso Firehose alle tabelle S3
La seguente procedura mostra come creare un flusso Firehose per fornire dati alle tabelle S3 utilizzando la console. I seguenti prerequisiti sono necessari per configurare un flusso Firehose alle tabelle S3.
Prerequisiti
-
Integrare i bucket di tabelle con i servizi di analisi di AWS.
Fornire le autorizzazioni di Lake Formation al ruolo di servizio Firehose creato per accedere alle tabelle.
Per fornire informazioni di instradamento a Firehose quando si configura un flusso, si utilizza il namespace come il nome del database e il nome di una tabella in tale namespace. È possibile utilizzare questi valori nella sezione Chiave unica di una configurazione del flusso Firehose per instradare i dati a una singola tabella. È inoltre possibile utilizzare questi valori per eseguire l'instradamento a una tabella utilizzando le espressioni di query JSON. Per ulteriori informazioni, consulta Instradare i record in entrata a una singola tabella Iceberg.
Per configurare un flusso su tabelle S3 (console)
Aprire la console Firehose all'indirizzo https://console.aws.amazon.com/firehose/
. -
Scegli Crea un flusso Firehose.
-
Per Origine scegli una delle seguenti origini:
-
Flusso di dati Amazon Kinesis
-
MSK Amazon
-
PUT diretto
-
-
Per Destinazione scegliere Tabelle Apache Iceberg.
-
Immettere un nome per il flusso Firehose.
-
Configurare le impostazioni dell'origine.
-
Per Impostazioni di destinazione, scegliere Account corrente per eseguire lo streaming alle tabelle dell’account o Multi-account per le tabelle di un altro account.
Per le tabelle dell’Account corrente, selezionare il catalogo Tabelle S3 dal menu a discesa Catalogo.
Per le tabelle di Multi-account, inserire l’ARN del catalogo verso cui eseguire lo streaming in un altro account.
-
Configurare i nomi di database e tabelle utilizzando la Configurazione della chiave unica, le espressioni JSONQuery o una funzione Lambda. Per ulteriori informazioni, consultare Instradare i record in entrata a una singola tabella Iceberg e Instradare i record in entrata a diverse tabelle Iceberg nella Guida per gli sviluppatori di Amazon Data Firehose.
-
In Impostazioni di backup specificare un bucket di backup S3.
-
Per Ruoli IAM esistenti in Impostazioni avanzate, seleziona il ruolo IAM creato per Firehose.
Scegli Crea un flusso Firehose.
Per ulteriori informazioni sulle altre impostazioni che è possibile configurare per un flusso, consultare Configurare il flusso Firehose nella Guida per gli sviluppatori di Amazon Data Firehose.