Considerazioni su Amazon EMR con Lake Formation - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Considerazioni su Amazon EMR con Lake Formation

Considera quanto segue quando usi Amazon EMR con. AWS Lake Formation

Amazon EMR with Lake Formation è disponibile in tutte le regioni disponibili.

  • Amazon EMR supporta il controllo granulare degli accessi tramite Lake Formation solo per le tabelle Apache Hive e Apache Iceberg. I formati Apache Hive includono Parquet, ORC e XSv.

  • Non puoi smettere di lavorare DynamicResourceAllocation per Lake Formation.

  • Puoi usare Lake Formation solo con i job Spark.

  • Amazon EMR with Lake Formation supporta solo una singola sessione Spark per tutta la durata di un job.

  • Amazon EMR with Lake Formation supporta solo query tabellari tra account condivise tramite link a risorse.

  • Quanto segue non è supportato:

    • Set di dati distribuiti resilienti (RDD)

    • Streaming Spark

    • Scrivi con le autorizzazioni concesse da Lake Formation

    • Controllo degli accessi per le colonne annidate

  • Amazon EMR blocca funzionalità che potrebbero compromettere il completo isolamento dei driver di sistema, tra cui:

    • UDTs, Hive UDFs e qualsiasi funzione definita dall'utente che includa classi personalizzate

    • Origini dati personalizzate

    • Fornitura di vasetti aggiuntivi per l'estensione, il connettore o il metastore Spark

    • Comando ANALYZE TABLE

  • Per applicare i controlli di accesso EXPLAIN PLAN e le operazioni DDL, ad esempio non esporre informazioni riservateDESCRIBE TABLE.

  • Amazon EMR limita l'accesso ai log Spark dei driver di sistema sulle applicazioni abilitate per Lake Formation. Poiché il driver di sistema viene eseguito con autorizzazioni elevate, gli eventi e i log generati dal driver di sistema possono includere informazioni riservate. Per impedire a utenti o codici non autorizzati di accedere a questi dati sensibili, Amazon EMR disabilita l'accesso ai registri dei driver di sistema.

    I log dei profili di sistema vengono sempre conservati nello storage gestito: si tratta di un'impostazione obbligatoria che non può essere disabilitata. Questi registri vengono archiviati in modo sicuro e crittografati utilizzando una chiave KMS gestita dal cliente o una chiave KMS gestita. AWS

    Se la tua applicazione Amazon EMR si trova in una sottorete privata con endpoint VPC per Amazon S3 e alleghi una policy di endpoint per controllare l'accesso, prima che i tuoi lavori possano inviare dati di log a Managed AWS Amazon S3, devi includere le autorizzazioni dettagliate in Managed Storage nella tua policy VPC all'endpoint gateway S3. Per la risoluzione dei problemi relativi alle richieste, contatta l'assistenza. AWS

  • Se hai registrato una posizione in una tabella con Lake Formation, il percorso di accesso ai dati passa attraverso le credenziali archiviate di Lake Formation indipendentemente dall'autorizzazione IAM per il ruolo di job runtime di Amazon EMR. Se configuri erroneamente il ruolo registrato con la posizione della tabella, i lavori inviati che utilizzano il ruolo con l'autorizzazione S3 IAM per la posizione della tabella avranno esito negativo.

  • La scrittura su una tabella Lake Formation utilizza l'autorizzazione IAM anziché le autorizzazioni concesse da Lake Formation. Se il tuo ruolo di job runtime dispone delle autorizzazioni S3 necessarie, puoi utilizzarlo per eseguire operazioni di scrittura.

Di seguito sono riportate considerazioni e limitazioni relative all'utilizzo di Apache Iceberg:

  • È possibile utilizzare Apache Iceberg solo con il catalogo delle sessioni e non con i cataloghi con nomi arbitrari.

  • Le tabelle Iceberg registrate in Lake Formation supportano solo le tabelle di metadatihistory,metadata_log_entries,, snapshots filesmanifests, e. refs Amazon EMR nasconde le colonne che potrebbero contenere dati sensibili, ad esempiopartitions, path e. summaries Questa limitazione non si applica alle tabelle Iceberg che non sono registrate in Lake Formation.

  • Le tabelle che non vengono registrate in Lake Formation supportano tutte le stored procedure Iceberg. Le migrate procedure register_table and non sono supportate per nessuna tabella.

  • Ti consigliamo di utilizzare Iceberg DataFrameWriter V2 anziché V1.

  • EMR 7.10 offre un modo per tornare a RecordServer utilizzare funzionalità supportate da RecordServer, ma non ancora supportate, da FGAC nativo, come il writeback alle tabelle registrate di Lake Formation. Per tornare indietro, specifica le seguenti configurazioni all'avvio del cluster.

    { "Classification": "spark-defaults", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }, { "Classification": "yarn-site", "Properties": { "spark.emr.lakeformation.legacy.enabled": "true" } }