Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilasci 6.9.0 di Amazon EMR su EKS
I seguenti rilasci 6.9.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.9.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.
-
emr-6.9.0- spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
Note di rilascio di Amazon EMR 6.9.0
-
Applicazioni supportate ‐ AWS SDK per Java 1.12.331, Spark 3.3.0-amzn-1, Hudi 0.12.1-amzn-0, Iceberg 0.14.1-amzn-0, Delta 2.1.0.
-
Componenti supportati:
aws-sagemaker-spark-sdk,emr-ddb,emr-goodies,emr-s3-select,emrfs,hadoop-client,hudi,hudi-spark,iceberg,spark-kubernetes. -
Classificazioni di configurazione supportate:
StartJobRunDa CreateManagedEndpoint APIsusare con e:
Classificazioni Descrizioni core-siteModifica i valori nel file core-site.xml di Hadoop.
emrfs-siteModifica le impostazioni EMRFS.
spark-metricsModifica i valori nel file metrics.properties di Spark.
spark-defaultsModifica i valori nel file spark-defaults.conf di Spark.
spark-envModifica i valori nell'ambiente Spark.
spark-hive-siteModifica i valori nel file hive-site.xml di Spark.
spark-log4jModifica i valori nel file log4j.properties di Spark.
Da utilizzare specificamente con CreateManagedEndpoint APIs:
Classificazioni Descrizioni jeg-configModifica i valori nel file
jupyter_enterprise_gateway_config.pyJupyter Enterprise Gateway.jupyter-kernel-overridesModifica il valore per l'immagine del kernel nel file Jupyter Kernel Spec.
Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio
spark-hive-site.xml. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.
Funzionalità significative
-
Acceleratore RAPIDS di Nvidia per Apache Spark: Amazon EMR su EKS per accelerare Spark utilizzando tipi di istanza Graphics Processing Unit (GPU) di EC2. Per utilizzare l'immagine Spark con RAPIDS Accelerator, specifica l'etichetta di rilascio come emr-6.9.0-. spark-rapids-latest Per maggiori informazioni, consulta la pagina della documentazione.
-
Connettore Spark-Redshift: l'integrazione di Amazon Redshift per Apache Spark è inclusa in Amazon EMR rilascio 6.9.0 e successivi. In precedenza uno strumento open source, l'integrazione nativa è un connettore Spark che è possibile utilizzare per creare applicazioni Apache Spark in grado di leggere e scrivere dati in Amazon Redshift e Amazon Redshift Serverless. Per ulteriori informazioni, consulta Uso dell'integrazione di Amazon Redshift per Apache Spark in Amazon EMR su EKS.
-
Delta Lake: Delta Lake
è un formato di archiviazione open source che consente di creare data lake con coerenza transazionale, definizione coerente di set di dati, modifiche all'evoluzione dello schema e supporto per le mutazioni dei dati. Per maggiori informazioni, consulta la sezione Uso di Delta Lake. -
Modifica PySpark parametri ‐ Gli endpoint interattivi ora supportano la modifica dei parametri Spark associati alle PySpark sessioni in EMR Studio Jupyter Notebook. Visita Modificare i parametri della sessione per saperne di più. PySpark
Problemi risolti
-
Quando utilizzi il connettore DynamoDB con Spark nelle versioni 6.6.0, 6.7.0 e 6.8.0 di Amazon EMR, tutte le letture della tabella restituiscono un risultato vuoto, anche se la divisione di input fa riferimento a dati non vuoti. Amazon EMR rilascio 6.9.0 risolve questo problema.
-
Amazon EMR su EKS 6.8.0 popola in modo errato l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark
. Questo problema può causare errori negli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0.
Problema noto
-
Se utilizzi l'integrazione Amazon Redshift per Apache Spark e disponi di un orario, timetz, timestamp o timestamptz con precisione al microsecondo in formato Parquet, il connettore arrotonda i valori temporali al valore in millisecondi più vicino. Come soluzione alternativa, utilizza il parametro
unload_s3_formatdel formato di scaricamento del testo.