本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon EMR on EKS 7.2.0 版本
本頁面描述了針對 Amazon EMR on EKS 部署的 Amazon EMR 新功能和更新功能。如需在 Amazon EC2 上執行的 Amazon EMR 和一般 Amazon EMR 7.2.0 版本的詳細資訊,請參閱《Amazon EMR 版本指南》中的 Amazon EMR 7.2.0。
Amazon EMR on EKS 7.2 版
下列 Amazon EMR 7.2.0 版本適用於 Amazon EMR on EKS。選取特定的 emr-7.2.0-XXXX 版本,以檢視更多詳細資訊,例如相關的容器映像標籤。
版本備註
Amazon EMR on EKS 7.2.0 的版本備註
-
支援的應用程式:適用於 Java 的 AWS SDK 2.23.18 and 1.12.705, Apache Spark 3.5.1-amzn-1, Apache Hudi 0.14.1-amzn-0, Apache Iceberg 1.5.0-amzn-0, Delta 3.1.0, Apache Spark RAPIDS 24.02.0-amzn-1, Jupyter Enterprise Gateway 2.6.0, Apache Flink 1.18.1-amzn-0, Flink Operator 1.8.0-amzn-1
-
支援的元件 ‐
aws-sagemaker-spark-sdk
、emr-ddb
、emr-goodies
、emr-s3-select
、emrfs
、hadoop-client
、hudi
、hudi-spark
、iceberg
、spark-kubernetes
。 -
支援的組態分類
若要與 StartJobRun 和 CreateManagedEndpoint API 搭配使用:
分類 描述 core-site
變更
core-site.xml
Hadoop 檔案中的值。emrfs-site
變更 EMRFS 設定。
spark-metrics
變更
metrics.properties
Spark 檔案中的值。spark-defaults
變更
spark-defaults.conf
Spark 檔案中的值。spark-env
變更 Spark 環境中的值。
spark-hive-site
變更
hive-site.xml
Spark 檔案中的值。spark-log4j2
變更
log4j2.properties
Spark 檔案中的值。emr-job-submitter
作業提交者 Pod 的組態。
專門搭配 CreateManagedEndpoint API 使用:
分類 描述 jeg-config
變更 Jupyter Enterprise Gateway
jupyter_enterprise_gateway_config.py
檔案中的值。jupyter-kernel-overrides
在 Jupyter 核心規格檔案中變更核心映像的值。
組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態 XML 檔案,例如
spark-hive-site.xml
。如需詳細資訊,請參閱設定應用程式。
值得注意的功能
Amazon EMR on EKS 7.2.0 版包含下列功能。
-
應用程式升級 – Amazon EMR on EKS 7.2.0 應用程式升級包括 Spark 3.5.1、Flink 1.18.1 和 Flink Operator 1.8.0。
-
Flink 更新的自動擴展器 – 7.2.0 版本使用開放原始碼組態
job.autoscaler.restart.time-tracking.enabled
來啟用重新擴展時間估算,因此您不再需要手動指派經驗值來重新啟動時間。如果您執行 7.1.0 或更低版本,您仍然可以使用 Amazon EMR Autoscaling。 -
Apache Hudi 整合 Apache Flink on Amazon EMR on EKS – 此版本新增了 Apache Hudi 和 Apache Flink 之間的整合,因此您可以使用 Flink Kubernetes Operator 來執行 Hudi 任務。Hudi 可讓您使用記錄層級操作,以簡化資料管理和資料管道開發。
-
Amazon S3 Express One Zone 與 Amazon EMR on EKS 整合 – 透過 7.2.0 及更高版本,您可以使用 Amazon EMR on EKS 將資料上傳至 S3 Express One Zone。S3 Express One Zone 是一種高效能的單一區域 Amazon S3 儲存類別,可為對大多數延遲敏感的應用程式提供一致的單一位數毫秒資料存取。在發布時,S3 Express One Zone 提供 Amazon S3 中最低延遲和最高效能的雲端物件儲存。
-
Spark 運算子中預設組態的支援 – Amazon EKS 上的 Spark 運算子現在支援與 Amazon EMR on EKS 7.2.0 及更高版本的啟動任務執行模型相同的預設組態。這表示 Amazon S3 和 EMRFS 等功能不再需要 yaml 檔案中的手動組態。