Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Lake Formation Utilizzo con AWS Glue
I data engineer e i DevOps professionisti utilizzano AWS Glue Extract, Transform and Load (ETL) con Apache Spark per eseguire trasformazioni sui propri set di dati in Amazon S3 e caricare i dati trasformati in data lake e data warehouse per analisi, apprendimento automatico e sviluppo di applicazioni. Poiché diversi team accedono allo stesso set di dati in Amazon S3, è fondamentale concedere e limitare le autorizzazioni in base ai rispettivi ruoli.
AWS Lake Formation è basato su e AWS Glue i servizi interagiscono nei seguenti modi:
-
Lake Formation e AWS Glue condividono lo stesso Data Catalog.
-
Le seguenti funzionalità della console di Lake Formation richiamano la AWS Glue console:
-
Lavori — Per ulteriori informazioni, consulta Aggiungere lavori nella Guida per gli AWS Glue sviluppatori.
-
Crawler — Per ulteriori informazioni, consulta Cataloging Tables with a Crawler nella Developer Guide.AWS Glue
-
-
I flussi di lavoro generati quando si utilizza un blueprint di Lake Formation sono AWS Glue flussi di lavoro. Puoi visualizzare e gestire questi flussi di lavoro sia nella console di Lake Formation che nella AWS Glue console.
-
Le trasformazioni di machine learning sono fornite con Lake Formation e si basano su operazioni AWS Glue API. Puoi creare e gestire le trasformazioni dell'apprendimento automatico sulla AWS Glue console. Per ulteriori informazioni, consulta Machine Learning Transforms nella AWS Glue Developer Guide.
È possibile utilizzare il controllo granulare degli accessi di Lake Formation per gestire le risorse esistenti nel catalogo dati e le posizioni di dati di Amazon S3.
Nota
AWS Glue 5.0 o versioni successive supportano controlli di accesso dettagliati sulle tabelle Iceberg e Hive supportate da S3. Questa funzionalità consente di configurare i controlli di accesso a livello di tabella, riga, colonna e cella per le query di lettura all'interno dei job di Apache Spark. AWS Glue
Support per tipi di tabelle transazionali
L'applicazione delle autorizzazioni Lake Formation consente di proteggere i dati transazionali nei data lake basati su Amazon S3. La tabella seguente elenca i formati di tabelle transazionali supportati AWS Glue e le autorizzazioni di Lake Formation. Lake Formation applica queste autorizzazioni per AWS Glue le operazioni.
| Formato della tabella | Descrizione e operazioni consentite | Autorizzazioni Lake Formation supportate in AWS Glue |
|---|---|---|
|
Apache Hudi |
Un formato di tabella aperta utilizzato per semplificare l'elaborazione incrementale dei dati e lo sviluppo di pipeline di dati. Per esempi, vedete Using the Hudi framework in. AWS Glue |
Le autorizzazioni a livello di tabella sono disponibili per le tabelle Hudi. Per ulteriori informazioni, consulta Limitazioni. |
|
Apache Iceberg |
Un formato di tabella aperta che gestisce grandi raccolte di file sotto forma di tabelle. Per esempi, vedete Using the Iceberg framework in AWS Glue. |
AWS Glue la versione 5.0 e successive consentono di configurare i controlli di accesso a livello di tabella, riga, colonna e cella per le query di lettura all'interno dei job for Apache Spark AWS Glue for Iceberg tables. Per ulteriori informazioni, consulta Limitazioni. |
|
Linux Foundation Delta Lake |
Delta Lake è un progetto open source che aiuta a implementare moderne architetture di data lake comunemente costruite su Amazon S3 o Hadoop Distributed File System (HDFS). Per esempi, consulta Usare il framework Delta Lake in. AWS Glue |
Le autorizzazioni a livello di tabella sono disponibili per le tabelle Delta Lake. Per ulteriori informazioni, consulta Limitazioni. |
Risorse aggiuntive
Post e repository del blog
-
Scrittura su tabelle Apache Hudi utilizzando un connettore personalizzato AWS Glue
-
AWS repository del modello Cloudformation e dell'esempio di codice pyspark
per analizzare i dati di streaming utilizzando Apache Hudi e AWS Glue Amazon S3.