Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Popolamento e gestione delle tabelle transazionali
Apache Iceberg
È possibile popolare le tabelle Iceberg, Hudi e Delta Lake AWS Glue Data Catalog utilizzando i seguenti metodi:
-
Crawler di AWS Glue; — Crawler di AWS Glue s può scoprire e popolare automaticamente i metadati delle tabelle Iceberg, Hudi e Delta Lake nel Data Catalog. Per ulteriori informazioni, consulta Utilizzo dei crawler per compilare il Catalogo dati.
-
AWS Glue Processi ETL: puoi creare lavori ETL per scrivere dati nelle tabelle Iceberg, Hudi e Delta Lake e popolare i relativi metadati nel Data Catalog. Per ulteriori informazioni, consulta Using Data Lake Frameworks with ETL jobs. AWS Glue
-
AWS Glue console, AWS Lake Formation console AWS CLI o API: puoi utilizzare la AWS Glue console, la console Lake Formation o l'API per creare e gestire le definizioni delle tabelle Iceberg nel Data Catalog.
Argomenti
Creazione di tabelle Apache Iceberg
È possibile creare tabelle Apache Iceberg che utilizzano il formato di dati Apache Parquet in AWS Glue Data Catalog con dati che risiedono in Amazon S3. Una tabella nel catalogo dati è la definizione dei metadati che rappresenta i dati in un datastore. Per impostazione predefinita, AWS Glue crea tabelle Iceberg v2. Per la differenza tra le tabelle v1 e v2, consulta Modifiche al tipo di formato
Apache Iceberg
Puoi utilizzare AWS Glue la console Lake Formation o l'CreateTableoperazione nell' AWS Glue API per creare una tabella Iceberg nel Data Catalog. Per ulteriori informazioni, vedere CreateTable action (Python: create_table).
Quando si crea una tabella Iceberg nel catalogo dati, occorre specificare il formato della tabella e il percorso del file dei metadati in Amazon S3 per poter eseguire letture e scritture.
Puoi usare Lake Formation per proteggere la tua tabella Iceberg utilizzando autorizzazioni di controllo degli accessi granulari quando registri la posizione dati di Amazon S3 con. AWS Lake Formation Per i dati di origine in Amazon S3 e i metadati non registrati con Lake Formation, l'accesso è determinato dalle politiche di autorizzazione IAM per Amazon S3 e dalle azioni. AWS Glue Per ulteriori informazioni, consultare Gestione delle autorizzazioni.
Nota
Il catalogo dati non supporta la creazione di partizioni e l'aggiunta di proprietà delle tabelle Iceberg.
Prerequisiti
Per creare tabelle Iceberg nel catalogo dati e configurare le autorizzazioni di accesso ai dati di Lake Formation, occorre soddisfare i seguenti requisiti:
-
Autorizzazioni richieste per creare tabelle Iceberg senza i dati registrati con Lake Formation.
Oltre alle autorizzazioni richieste per creare una tabella nel catalogo dati, il creatore della tabella richiede le seguenti autorizzazioni:
s3:PutObjectsulla risorsa arn:aws:s3:::{bucketName}-
s3:GetObjectsulla risorsa arn:aws:s3:::{bucketName} -
s3:DeleteObjectsulla risorsa arn:aws:s3:::{bucketName}
-
Autorizzazioni richieste per creare tabelle Iceberg con dati registrati con Lake Formation:
Per utilizzare Lake Formation per gestire e proteggere i dati nel data lake, registrare la posizione Amazon S3 che contiene i dati per le tabelle con Lake Formation. In questo modo Lake Formation può fornire credenziali a servizi di AWS analisi come Athena, Redshift Spectrum e Amazon EMR per accedere ai dati. Per ulteriori informazioni su come registrare una posizione Amazon S3, consultare Aggiungere una posizione Amazon S3 al data lake.
Un principale che legge e scrive i dati sottostanti registrati con Lake Formation richiede le seguenti autorizzazioni:
-
lakeformation:GetDataAccess -
DATA_LOCATION_ACCESSUn principale che dispone di autorizzazioni di localizzazione dei dati in una sede dispone anche delle autorizzazioni di localizzazione su tutte le sedi secondarie.
Per ulteriori informazioni sulle autorizzazioni di localizzazione dei dati, consultare il link Controlli degli accessi ai dati sottostanti.
-
Per abilitare la compattazione, il servizio deve assumere un ruolo IAM con le autorizzazioni per aggiornare le tabelle nel catalogo dati. Per maggiori dettagli, consultare Prerequisiti per l'ottimizzazione delle tabelle.
Creazione di una tabella Iceberg
Puoi creare tabelle Iceberg v1 e v2 utilizzando AWS Glue la console Lake Formation o AWS Command Line Interface come documentato in questa pagina. È anche possibile creare tabelle Iceberg usando Crawler di AWS Glue. Per ulteriori informazioni, consultare Catalogo dati e crawler nella Guida per gli sviluppatori di AWS Glue .
Per creare una tabella Iceberg