Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Considerazioni su Amazon EMR con Lake Formation
Amazon EMR with Lake Formation è disponibile in tutte le regioni disponibili.
Considerazioni per Amazon EMR with Lake Formation per la versione 7.9 e precedenti
Considerare quanto segue quando AWS Lake Formation si utilizza EMR 7.9 e versioni precedenti.
-
Il controllo granulare degli accessi è disponibile sui cluster con Amazon EMR versioni 6.15 e successive.
-
Gli utenti con accesso a una tabella possono accedere a tutte le sue proprietà. Se disponi di un controllo degli accessi basato su Lake Formation su una tabella, controlla la tabella per assicurarti che le proprietà non contengano dati o informazioni sensibili.
-
I cluster Amazon EMR con Lake Formation non supportano il fallback di Spark su HDFS quando Spark raccoglie le statistiche delle tabelle. Questo di solito aiuta a ottimizzare le prestazioni delle query.
-
Le operazioni che supportano i controlli degli accessi basati su Lake Formation con tabelle Apache Spark non gestite includono
INSERT INTOeINSERT OVERWRITE. -
Le operazioni che supportano i controlli degli accessi basati su Lake Formation con Apache Spark e Apache Hive includono
SELECT,DESCRIBE,SHOW DATABASE,SHOW TABLE,SHOW COLUMNeSHOW PARTITION. -
Amazon EMR non supporta l'accesso alle seguenti operazioni basate su Lake Formation:
-
Scrive su tabelle regolate
-
Amazon EMR non supporta
CREATE TABLE. Amazon EMR versione 6.10.0 e successive supportaALTER TABLE. -
Istruzioni DML diverse dai comandi
INSERT.
-
-
Esistono differenze di prestazioni tra la stessa query con e senza il controllo degli accessi basato su Lake Formation.
-
Puoi usare Amazon EMR solo con Lake Formation per i lavori Spark.
-
La propagazione delle identità affidabili non è supportata con la gerarchia multicatalogo in Glue Data Catalog. Per ulteriori informazioni, consulta Lavorare con una gerarchia multicatalogo in AWS Glue Data Catalog.
Considerazioni per Amazon EMR with Lake Formation per la versione 7.10 e successive
Considera quanto segue quando utilizzi Amazon EMR con AWS Lake Formation EMR 7.10 e versioni successive.
-
Amazon EMR supporta il controllo granulare degli accessi tramite Lake Formation solo per le tabelle Apache Hive, Apache Iceberg, Apache Delta e Apache Hudi. I formati Apache Hive includono Parquet, ORC e xSv CSV.
-
Per le applicazioni abilitate per Lake Formation, i log Spark vengono scritti su Amazon S3 in due gruppi: log dello spazio di sistema e log dello spazio utente. I log dello spazio di sistema possono contenere informazioni riservate come lo schema completo della tabella. Per proteggere questi dati, Amazon EMR archivia i log dello spazio di sistema in una posizione separata dai log dello spazio utente. Si consiglia vivamente agli amministratori degli account di non concedere agli utenti l'accesso ai registri dello spazio di sistema.
-
Se registri una posizione in una tabella con Lake Formation, l'accesso ai dati sarà controllato esclusivamente dalle autorizzazioni del ruolo utilizzato per la registrazione, anziché dal ruolo Job Runtime di Amazon EMR. Se il ruolo di registrazione non è configurato correttamente, i lavori che tentano di accedere alla tabella avranno esito negativo.
-
Non puoi smettere di lavorare
DynamicResourceAllocationper Lake Formation. -
Si può usare Lake Formation solo con i processi Spark.
-
Amazon EMR with Lake Formation supporta solo una singola sessione Spark durante un processo.
-
Amazon EMR with Lake Formation supporta solo query tabellari tra account condivise tramite link a risorse.
-
I seguenti elementi non sono supportati:
-
Resilient Distributed Dataset (RDD)
-
Streaming di Spark
-
Scrivere con le autorizzazioni concesse da Lake Formation
-
Controllo degli accessi per colonne annidate
-
-
Amazon EMR blocca funzionalità che potrebbero compromettere il completo isolamento dei driver di sistema, tra cui:
-
UDTs, Hive UDFs e qualsiasi funzione definita dall'utente che includa classi personalizzate
-
Origini dati personalizzate
-
Fornitura di jar aggiuntivi per l'estensione, il connettore o il metastore di Spark
-
Comando
ANALYZE TABLE
-
-
Per applicare i controlli di accesso,
EXPLAIN PLANe le operazioni DDL, comeDESCRIBE TABLEnon espongono informazioni riservate. -
Amazon EMR limita l'accesso ai log Spark dei driver di sistema sulle applicazioni abilitate per Lake Formation. Poiché il driver di sistema viene eseguito con autorizzazioni elevate, gli eventi e i log generati dal driver di sistema possono includere informazioni riservate. Per impedire a utenti o codici non autorizzati di accedere a questi dati sensibili, Amazon EMR disabilita l'accesso ai registri dei driver di sistema.
I log dei profili di sistema vengono sempre conservati nello storage gestito: si tratta di un'impostazione obbligatoria che non può essere disabilitata. Questi registri vengono archiviati in modo sicuro e crittografati utilizzando una chiave KMS gestita dal cliente o una chiave KMS gestita. AWS
Se la tua applicazione Amazon EMR si trova in una sottorete privata con endpoint VPC per Amazon S3 e alleghi una policy di endpoint per controllare l'accesso, prima che i tuoi lavori possano inviare dati di log a Managed AWS Amazon S3, devi includere le autorizzazioni dettagliate in Managed Storage nella tua policy VPC all'endpoint gateway S3. Per la risoluzione dei problemi relativi alle richieste, contatta l'assistenza. AWS
-
Se hai registrato una posizione in una tabella con Lake Formation, il percorso di accesso ai dati passa attraverso le credenziali archiviate di Lake Formation indipendentemente dall'autorizzazione IAM per il ruolo di job runtime di Amazon EMR. Se si configura erroneamente il ruolo registrato con la posizione della tabella, i processi inviati che utilizzano il ruolo con l'autorizzazione S3 IAM per la posizione della tabella avranno esito negativo.
-
La scrittura su una tabella Lake Formation utilizza l'autorizzazione IAM anziché le autorizzazioni concesse da Lake Formation. Se il ruolo di runtime del processo dispone delle autorizzazioni S3 necessarie, è possibile utilizzarlo per eseguire operazioni di scrittura.
Di seguito sono riportate considerazioni e limitazioni per l'utilizzo di Apache Iceberg:
-
È possibile utilizzare Apache Iceberg solo con il catalogo delle sessioni e non con i cataloghi con nomi arbitrari.
-
Le tabelle Iceberg registrate in Lake Formation supportano solo le tabelle di metadati
history,metadata_log_entries,,snapshotsfilesmanifests, e.refsAmazon EMR nasconde le colonne che potrebbero contenere dati sensibili, ad esempiopartitions,pathe.summariesQuesta limitazione non si applica alle tabelle Iceberg che non sono registrate in Lake Formation. -
Le tabelle non registrate in Lake Formation supportano tutte le stored procedure di Iceberg. Le procedure di
register_tableemigratenon sono supportate per nessuna tabella. -
Ti consigliamo di utilizzare Iceberg DataFrameWriter V2 anziché V1.
Considerazioni per Amazon EMR with Lake Formation per la versione 7.12 e successive
Ambito generale
Esamina le seguenti limitazioni quando usi Lake Formation con Amazon EMR.
-
Non puoi smettere di lavorare
DynamicResourceAllocationper Lake Formation. -
Si può usare Lake Formation solo con i processi Spark.
-
Amazon EMR with Lake Formation supporta solo una singola sessione Spark durante un processo.
-
Amazon EMR with Lake Formation supporta solo query tabellari tra account condivise tramite link a risorse.
-
I seguenti elementi non sono supportati:
-
Resilient Distributed Dataset (RDD)
-
Streaming di Spark
-
Controllo degli accessi per colonne annidate
-
-
Amazon EMR blocca funzionalità che potrebbero compromettere il completo isolamento dei driver di sistema, tra cui:
-
UDTs, Hive UDFs e qualsiasi funzione definita dall'utente che includa classi personalizzate
-
Origini dati personalizzate
-
Fornitura di jar aggiuntivi per l'estensione, il connettore o il metastore di Spark
-
Comando
ANALYZE TABLE
-
-
Se la tua applicazione Amazon EMR si trova in una sottorete privata con endpoint VPC per Amazon S3 e alleghi una policy di endpoint per controllare l'accesso, prima che i tuoi lavori possano inviare dati di log a Managed AWS Amazon S3, devi includere le autorizzazioni dettagliate in Managed Storage nella tua policy VPC all'endpoint gateway S3. Per la risoluzione dei problemi relativi alle richieste, contatta l'assistenza. AWS
-
A partire da Amazon EMR 7.9.0, Spark FGAC supporta il AFile sistema S3 se utilizzato con lo schema s3a://.
-
Amazon EMR 7.11 supporta la creazione di tabelle gestite tramite CTAS.
-
Amazon EMR 7.12 supporta la creazione di tabelle gestite ed esterne utilizzando CTAS.
Permissions
-
Per applicare i controlli di accesso, le operazioni EXPLAIN PLAN e DDL come DESCRIBE TABLE non espongono informazioni riservate.
-
Quando registri una posizione in una tabella con Lake Formation, l'accesso ai dati utilizza le credenziali archiviate di Lake Formation anziché le autorizzazioni IAM del ruolo di job runtime EMR Serverless. I processi falliranno se il ruolo registrato per la posizione della tabella è configurato in modo errato, anche se il ruolo di runtime dispone delle autorizzazioni S3 IAM per quella posizione.
-
A partire da Amazon EMR 7.12, puoi scrivere su tabelle Hive e Iceberg esistenti utilizzando DataFrameWriter (V2) con credenziali Lake Formation in modalità di aggiunta. Per le operazioni di sovrascrittura o durante la creazione di nuove tabelle, EMR utilizza le credenziali del ruolo di runtime per modificare i dati della tabella.
-
Le seguenti limitazioni si applicano quando si utilizzano viste o tabelle memorizzate nella cache come dati di origine (queste limitazioni non si applicano alle viste del AWS Glue Data Catalog):
-
Per le operazioni MERGE, DELETE e UPDATE
-
Supportato: utilizzo di viste e tabelle memorizzate nella cache come tabelle di origine.
-
Non supportato: utilizzo di viste e tabelle memorizzate nella cache nelle clausole di assegnazione e condizione.
-
-
Per le operazioni CREATE OR REPLACE e REPLACE TABLE AS SELECT:
-
Non supportata: utilizzo di viste e tabelle memorizzate nella cache come tabelle di origine.
-
-
-
Le tabelle Delta Lake con UDFs dati di origine supportano le operazioni MERGE, DELETE e UPDATE solo quando il vettore di eliminazione è abilitato.
Registri e debug
-
Amazon EMR limita l'accesso ai log Spark dei driver di sistema sulle applicazioni abilitate per Lake Formation. Poiché il driver di sistema funziona con autorizzazioni elevate, gli eventi e i log generati dal driver di sistema possono includere informazioni sensibili. Per impedire a utenti o codici non autorizzati di accedere a questi dati sensibili, Amazon EMR disabilita l'accesso ai registri dei driver di sistema.
I log dei profili di sistema vengono sempre conservati nello storage gestito: si tratta di un'impostazione obbligatoria che non può essere disabilitata. Questi registri vengono archiviati in modo sicuro e crittografati utilizzando una chiave KMS gestita dal cliente o una chiave KMS gestita. AWS
Iceberg
Leggi le seguenti considerazioni quando usi Apache Iceberg:
-
È possibile utilizzare Apache Iceberg solo con il catalogo delle sessioni e non con i cataloghi con nomi arbitrari.
-
Le tabelle Iceberg registrate in Lake Formation supportano solo le tabelle di metadati
history,metadata_log_entries,,snapshotsfilesmanifests, e.refsAmazon EMR nasconde le colonne che potrebbero contenere dati sensibili, ad esempiopartitions,pathe.summariesQuesta limitazione non si applica alle tabelle Iceberg che non sono registrate in Lake Formation. -
Le tabelle non registrate in Lake Formation supportano tutte le stored procedure Iceberg. Le procedure di
register_tableemigratenon sono supportate per nessuna tabella. -
Ti suggeriamo di utilizzare Iceberg DataFrameWriter V2 anziché V1.