Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilasci 6.9.0 di Amazon EMR su EKS
I seguenti rilasci 6.9.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.9.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.
-
emr-6.9.0- spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Note di rilascio di Amazon EMR 6.9.0
-
Applicazioni supportate ‐ AWS SDK per Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
-
Componenti supportati:
aws-sagemaker-spark-sdk,emr-ddb,emr-goodies,emr-s3-select,emrfs,hadoop-client,hudi,hudi-spark,iceberg,spark-kubernetes. -
Classificazioni di configurazione supportate:
StartJobRunDa CreateManagedEndpoint APIsusare con e:
Classificazioni Descrizioni core-siteModifica i valori nel file core-site.xml di Hadoop.
emrfs-siteModifica le impostazioni EMRFS.
spark-metricsModifica i valori nel file metrics.properties di Spark.
spark-defaultsModifica i valori nel file spark-defaults.conf di Spark.
spark-envModifica i valori nell'ambiente Spark.
spark-hive-siteModifica i valori nel file hive-site.xml di Spark.
spark-log4jModifica i valori nel file log4j.properties di Spark.
Da utilizzare specificamente con CreateManagedEndpoint APIs:
Classificazioni Descrizioni jeg-configModifica i valori nel file
jupyter_enterprise_gateway_config.pyJupyter Enterprise Gateway.jupyter-kernel-overridesModifica il valore per l'immagine del kernel nel file Jupyter Kernel Spec.
Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio
spark-hive-site.xml. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.
Funzionalità significative
-
Nvidia RAPIDS Accelerator for Apache Spark ‐ Amazon EMR su EKS per accelerare Spark utilizzando tipi di istanze di unità di elaborazione EC2 grafica (GPU). Per utilizzare l'immagine Spark con RAPIDS Accelerator, specifica l'etichetta di rilascio come emr-6.9.0-. spark-rapids-latest Per maggiori informazioni, consulta la pagina della documentazione.
-
Connettore Spark-Redshift: l'integrazione di Amazon Redshift per Apache Spark è inclusa in Amazon EMR rilascio 6.9.0 e successivi. In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Uso dell'integrazione di Amazon Redshift per Apache Spark in Amazon EMR su EKS.
-
Delta Lake: Delta Lake
è un formato di archiviazione open source che consente di creare data lake con coerenza transazionale, definizione coerente di set di dati, modifiche all'evoluzione dello schema e supporto per le mutazioni dei dati. Per maggiori informazioni, consulta la sezione Uso di Delta Lake. -
Modifica PySpark parametri ‐ Gli endpoint interattivi ora supportano la modifica dei parametri Spark associati alle PySpark sessioni in EMR Studio Jupyter Notebook. Visita Modificare i parametri della sessione per saperne di più. PySpark
Problemi risolti
-
Quando utilizzi il connettore DynamoDB con Spark nelle versioni 6.6.0, 6.7.0 e 6.8.0 di Amazon EMR, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Amazon EMR rilascio 6.9.0 risolve questo problema.
-
Amazon EMR su EKS 6.8.0 popola in modo errato l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark
. Questo problema può causare errori negli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0.
Problema noto
-
Se utilizzi l'integrazione Amazon Redshift per Apache Spark e disponi di un orario, timetz, timestamp o timestamptz con precisione al microsecondo in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro
unload_s3_formatdel formato di scaricamento del testo.