Considerazioni e limitazioni - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Considerazioni e limitazioni

Considerate le seguenti considerazioni e limitazioni quando utilizzate Lake Formation con EMR Serverless.

Nota

Quando abiliti Lake Formation per un job Spark su EMR Serverless, il job avvia un driver di sistema e un driver utente. Se hai specificato la capacità preinizializzata all'avvio, i driver forniti dalla capacità preinizializzata e il numero di driver di sistema è uguale al numero di driver utente specificato. Se si sceglie la capacità On Demand, EMR Serverless avvia un driver di sistema oltre a un driver utente. Per stimare i costi associati al tuo lavoro EMR Serverless with Lake Formation, utilizza il. Calcolatore dei prezzi AWS

Amazon EMR Serverless with Lake Formation è disponibile in tutte le regioni serverless EMR supportate.

  • Amazon EMR Serverless supporta il controllo granulare degli accessi tramite Lake Formation per operazioni di lettura con tabelle Apache Hive, Apache Iceberg, Delta Lake e Hudi. I formati Apache Hive includono Parquet, ORC e XSv.

  • Le applicazioni abilitate per Lake Formation non supportano l'utilizzo di immagini EMR Serverless personalizzate.

  • Non puoi smettere di lavorare DynamicResourceAllocation per Lake Formation.

  • Si può usare Lake Formation solo con i processi Spark.

  • EMR Serverless with Lake Formation supporta solo una singola sessione Spark durante un job.

  • EMR Serverless with Lake Formation supporta solo le query tabellari tra account condivise tramite link alle risorse.

  • I seguenti elementi non sono supportati:

    • Resilient Distributed Dataset (RDD)

    • Streaming di Spark

    • Scrivere con le autorizzazioni concesse da Lake Formation

    • Controllo degli accessi per colonne annidate

  • EMR Serverless blocca le funzionalità che potrebbero compromettere il completo isolamento dei driver di sistema, tra cui:

    • UDTs, Hive e qualsiasi funzione UDFs definita dall'utente che coinvolga classi personalizzate

    • Origini dati personalizzate

    • Fornitura di jar aggiuntivi per l'estensione, il connettore o il metastore di Spark

    • Comando ANALYZE TABLE

  • Per applicare i controlli di accesso, EXPLAIN PLAN e le operazioni DDL, come DESCRIBE TABLE non espongono informazioni riservate.

  • EMR Serverless limita l'accesso ai registri Spark dei driver di sistema sulle applicazioni abilitate per Lake Formation. Poiché il driver di sistema viene eseguito con autorizzazioni elevate, gli eventi e i registri generati dal driver di sistema possono includere informazioni riservate. Per impedire a utenti o codici non autorizzati di accedere a questi dati sensibili, EMR Serverless disabilita l'accesso ai registri dei driver di sistema.

    I log dei profili di sistema vengono sempre conservati nello storage gestito: si tratta di un'impostazione obbligatoria che non può essere disabilitata. Questi registri vengono archiviati in modo sicuro e crittografati utilizzando una chiave KMS gestita dal cliente o una chiave KMS gestita. AWS

    Se la tua applicazione EMR Serverless si trova in una sottorete privata con endpoint VPC per Amazon S3 e alleghi una policy di endpoint per controllare l'accesso, prima che i tuoi job possano inviare i dati di log a AWS Managed Amazon S3, includi le autorizzazioni dettagliate in Managed Storage nella tua policy VPC all'endpoint gateway S3. Per la risoluzione dei problemi relativi alle richieste, contatta l'assistenza. AWS

  • Se hai registrato una posizione in una tabella con Lake Formation, il percorso di accesso ai dati passa attraverso le credenziali archiviate di Lake Formation indipendentemente dall'autorizzazione IAM per il ruolo di job runtime EMR Serverless. Se si configura erroneamente il ruolo registrato con la posizione della tabella, i processi inviati che utilizzano il ruolo con l'autorizzazione S3 IAM per la posizione della tabella avranno esito negativo.

  • La scrittura su una tabella Lake Formation utilizza l'autorizzazione IAM anziché le autorizzazioni concesse da Lake Formation. Se il ruolo di runtime del processo dispone delle autorizzazioni S3 necessarie, è possibile utilizzarlo per eseguire operazioni di scrittura.

  • A partire da Amazon EMR 7.9.0, Spark FGAC supporta il AFile sistema S3 se utilizzato con lo schema s3a://.

Di seguito sono riportate considerazioni e limitazioni per l'utilizzo di Apache Iceberg:

  • È possibile utilizzare Apache Iceberg solo con il catalogo delle sessioni e non con i cataloghi con nomi arbitrari.

  • Le tabelle Iceberg registrate in Lake Formation supportano solo le tabelle di metadatihistory,metadata_log_entries,, snapshots filesmanifests, e. refs Amazon EMR nasconde le colonne che potrebbero contenere dati sensibili, ad esempiopartitions, path e. summaries Questa limitazione non si applica alle tabelle Iceberg che non sono registrate in Lake Formation.

  • Le tabelle non registrate in Lake Formation supportano tutte le stored procedure di Iceberg. Le procedure di register_table e migrate non sono supportate per nessuna tabella.

  • Ti suggeriamo di utilizzare Iceberg DataFrameWriter V2 anziché V1.