View a markdown version of this page

AWS Apache Spark 的執行時間 (emr-spark-8.0.0) - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Apache Spark 的執行時間 (emr-spark-8.0.0)

emr-spark-8.0.0 支援的生命週期

下表說明 Amazon EMR Spark 8.0.0 支援的生命週期日期。

支援階段 Date
初始發行日期 2026 年 5 月 21 日
標準支援,直到 2027 年 5 月 20 日
生命週期結束 2027 年 5 月 20 日

emr-spark-8.0.0 應用程式版本

此版本包含下列應用程式:AmazonCloudWatchAgentDeltaHudiIcebergLivyJupyterEnterpriseGatewaySpark

下表列出此 Amazon EMR 版本中提供的應用程式版本,以及前三個 Amazon EMR 版本 (如果適用) 中的應用程式版本。

如需完整了解各 Amazon EMR 版之應用程式版本的完整歷史記錄,請參閱以下主題:

應用程式版本資訊
emr-spark-8.0.0
AWS 適用於 Java 的 SDK 2.41.32
Python 3.11、3.12、3.13
Scala 2.13.16
AmazonCloudWatchAgent1.300032.2-amzn-0
Delta4.0.0-amzn-1-spark
Hudi1.1.0-amzn-0
Iceberg1.10.1-amzn-0
JupyterEnterpriseGateway2.6.0
Livy0.8.0 培養
Spark4.0.2-amzn-0

emr-spark-8.0.0 版本備註

下列版本備註包含具有 Apache Spark 4.0.2 的 Amazon EMR 8.0.0 版 (emr-spark-8.0.0) 資訊。

新功能

  • Apache Spark 4.0.2 GA — Amazon EMR 上 Spark 4.x 的第一個生產就緒版本,基於具有 Amazon 修補程式的 branch-4.0 上游分支,以實現效能、安全性和整合。

  • 適用於 EC2、EKS 和 Serverless — 此版本適用於所有 Amazon EMR 部署模式。

  • ANSI SQL 模式 — 預設啟用更嚴格的類型處理,可改善 SQL 正確性和與標準 SQL 行為的相容性。

  • SQL PIPE 語法 — 新的 |> 運算子,用於以更易於讀取的管道樣式語法鏈結 SQL 操作。

  • VARIANT 資料類型 — 原生支援使用 VARIANT 類型的半結構化 JSON 資料,無需明確schema-on-read結構描述模式。

  • SQL 指令碼:控制流程陳述式 (IF/ELSE、WHILE、FOR) 和工作階段變數,用於 Spark SQL 中的程序式 SQL 邏輯。

  • SQL 使用者定義函數 — 直接在 SQL 中定義 UDFs而不需要 Scala/Python 程式碼。

  • 串流增強功能 — 具有 transformWithState 運算子和增強型 RocksDB 變更日誌檢查點的任意狀態處理 API v2。

  • Apache Iceberg v3 支援 — Iceberg 資料表、 AWS S3 Tables 整合中的 VARIANT 資料類型支援。

  • 原生精細存取控制和完整資料表存取 (FTA) — 支援 Iceberg、Delta Lake 和 Hive 資料表。

  • JDK 17 預設 — Amazon Corretto 17 是預設 JVM;也可使用 JDK 21。

  • Scala 2.13 — Spark 4.x 捨棄 Scala 2.12 支援;針對 Scala 2.13 建置的所有元件。

emr-spark-8.0-preview 以來的變更和增強功能

  • Livy 和 JupyterEnterpriseGateway 可作為互動式工作負載應用程式使用

  • 持久性 Spark 歷史記錄伺服器支援

已知問題和限制

  • 此版本不提供具有原生 FGAC 支援的 Spark Connect 安全端點。

  • AL2023 以系統 Python 的形式提供 Python 3.9,但不支援 PySpark 工作負載。

從 EMR 7.x 遷移 (Spark 3.5.x)

從 EMR 7.x (使用 Spark 3.5.x) 遷移至 emr-spark-8.0.0 (Spark 4.0.2) 時,請考慮使用 Spark 升級代理程式來協助遷移。

  • ANSI SQL 模式是預設的 — 更嚴格的強制類型;先前成功的隱含轉換現在可能會擲回錯誤。

  • Scala 2.13 — 所有 Spark 4.x 組建都使用 Scala 2.13。重新編譯針對 Scala 2.12 建置的任何自訂 JARs。

  • JDK 17 預設 — Spark 4.0.2 僅支援 JDK 17 (預設) 和 JDK 21。

  • Python 3.11 預設 — Python 3.9 不再是 PySpark 的預設值。驗證 Python 相依性的相容性。

  • AWS SDK — 已移除適用於 Java 的 AWS SDK v1。更新您的應用程式以使用 AWS SDK v2 來改善效能和資源管理。

  • S3 存取 — EMRFS 不再可用。使用 S3A 連接器將持久性資料寫入 Amazon S3,以獲得更好的效能和相容性。請參閱使用 EMR S3A 最佳化 Apache Spark 的 Amazon EMR 執行期。emr-s3-select 已移除。

  • 互動式開發:不再包含 JupyterHub、Zeppelin 和 Hue。對於互動式 Spark 開發,請使用 EMR Studio、Livy 和 JupyterEnterpriseGateway。

  • 獨立發行訓練 — 發行標籤為 emr-spark-8.0.0,而非 emr-8.0.0。此版本著重於 Spark。對於 Flink、HBase、Phoenix、Tez、Trino、Presto,使用 EMR 7.x 並等待未來的 emr-8.0.0 多引擎版本。Pig 和 Oozie 不包含在內。

  • EMR 叢集通訊的 VPC 端點 — 從 Amazon EMR Spark 8.0.0 開始,Amazon EMR on EC2 會在 VPC 中佈建 VPC 端點,以便在私有子網路中啟動叢集時,Amazon EMR 服務與叢集之間進行通訊。您的 Amazon EMR 服務角色必須包含 ec2:CreateVpcEndpointec2:ModifyVpcEndpoint許可,或者您必須在啟動叢集之前手動建立 VPC 端點。VPC 端點服務名稱為 aws.api.region.emr-service-cell01

    • 此變更會更新私有子網路叢集的網路需求:

      • 連接到 VPC 端點的服務存取安全群組 (ElasticMapReduce-ServiceAccess) 需要 VPC CIDR 區塊的傳入 HTTPS (連接埠 443)。Amazon EMR 7.x 版和更早版本中使用的連接埠 8443/9443 規則已不再需要。

      • 主要執行個體安全群組需要傳出 HTTPS (連接埠 443) 給服務存取安全群組。

      • 主要、核心和任務執行個體安全群組不再需要 Amazon EMR 7.x 版及更早版本的傳入連接埠 8443 和傳出連接埠 9443 規則。

      • 如果您使用 Amazon S3 的自訂 VPC 端點政策,則必須允許存取 Amazon EMR 執行個體資料儲存貯體 (aws157-instance-data-0-prod-regionaws157-instance-data-1-prod-region)。

    • 如需詳細資訊,請參閱《Amazon EMR 管理指南》中的私有子網路中的 EMR 叢集、Amazon EMR 受管安全群組,以及私有子網路的最小 Amazon S3 政策

emr-spark-8.0.0 預設 Java 版本

應用程式Java/Amazon Corretto 版本 (預設為粗體)
Spark17、21
Livy17、11、8
Hadoop17、11、8

emr-spark-8.0.0 元件版本

Amazon EMR 在此版本安裝的元件列出如下。其中有一些屬於大數據應用程式套件。其他的則為 Amazon EMR 獨有,並安裝為系統程序和功能。這些通常會以 emraws 開頭。在最新 Amazon EMR 版本中的大數據應用程式套件,通常也是社群中可找到的最新版本。我們致力盡快提供 Amazon EMR 的社群版本。

Amazon EMR 中的某些元件與社群版本不同。這些元件具有版本標籤,格式為 CommunityVersion-amzn-EmrVersionEmrVersion 從 0 開始。例如,假設有一個名為 myapp-component 的開放原始碼社群元件 2.2 版為了包含在不同 Amazon EMR 發行版本中而修改過三次,則其發行版本會列為 2.2-amzn-2

元件 版本 說明
adot-java-agent1.31.0從應用程式常駐程式收集指標的 Java 代理程式。
delta4.0.0-amzn-1-sparkDelta Lake 是一種適用於大型分析資料集的開放式資料表格式
emr-amazon-cloudwatch-agent1.300032.2-amzn-0從 Amazon EC2 執行個體收集內部系統層級指標和自訂應用程式指標的應用程式。
emr-ddb6.0.0適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。
emr-goodies3.22.0-spark適用 Hadoop 生態系統的超便利程式庫。
emr-notebook-env1.18.0適用於 emr 筆記本的 Conda env,前者包含 Jupyter Enterprise Gateway
emr-s3-dist-cp2.44.0針對 Amazon S3 最佳化的分散式複製應用程式。
hadoop-client3.4.2-amzn-1Hadoop 命令列用戶端,例如「hdfs」、「Hadoop」或「yarn」。
hadoop-hdfs-datanode3.4.2-amzn-1用於存放區塊的 HDFS 節點層級服務。
hadoop-hdfs-library3.4.2-amzn-1HDFS 命令列用戶端和程式庫
hadoop-hdfs-namenode3.4.2-amzn-1用於追蹤檔案名稱和區塊位置的 HDFS 服務。
hadoop-hdfs-zkfc3.4.2-amzn-1用於追蹤 HA 模式名稱節點的 ZKFC 服務。
hadoop-hdfs-journalnode3.4.2-amzn-1HDFS 檔案系統中的 Hadoop 服務,用於管理在 HA 叢集。
hadoop-httpfs-server3.4.2-amzn-1HDFS 操作的 HTTP 端點。
hadoop-kms-server3.4.2-amzn-1以 Hadoop 金鑰供應商 API 為基礎的加密金鑰管理伺服器。
hadoop-mapred3.4.2-amzn-1執行 MapReduce 應用程式的 MapReduce 執行引擎程式庫。
hadoop-yarn-nodemanager3.4.2-amzn-1在個別節點用於管理容器的 YARN 服務。
hadoop-yarn-resourcemanager3.4.2-amzn-1用於分配和管理叢集資源,以及分散式應用程式的 YARN 服務。
hadoop-yarn-timeline-server3.4.2-amzn-1為 YARN 應用程式擷取目前和歷史資訊的服務。
hudi1.1.0-amzn-0增量處理架構,以低延遲和高效率強化資料管道。
hudi-spark1.1.0-amzn-0用於使用 Hudi 執行 Spark 的套件程式庫。
iceberg1.10.1-amzn-0Apache Iceberg 是一種適用於大型分析資料集的開放式資料表格式
livy-server0.8.0 培養與 Apache Spark 互動的 REST 介面
nginx1.12.1nginx [engine x] 是 HTTP 和反向代理伺服器
mariadb-server5.5.68+MariaDB 資料庫伺服器。
nvidia-cuda12.5.0Nvidia 驅動程式和 Cuda 工具組
r4.3.2統計運算 R 專案
spark-client4.0.2-amzn-0Spark 命令列用戶端。
spark-history-server4.0.2-amzn-0用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。
spark-on-yarn4.0.2-amzn-0適用於 YARN 的記憶體內執行引擎。
spark-yarn-slave4.0.2-amzn-0YARN 從屬所需的 Apache Spark 程式庫。
spark-rapids26.02.2-amzn-0Nvidia Spark RAPIDS 外掛程式使用 GPU 加速 Apache Spark。
zookeeper-server3.9.3-amzn-6用於維護組態資訊、命名、提供分散式同步,並提供群組服務的集中化服務。
zookeeper-client3.9.3-amzn-6ZooKeeper 命令列用戶端。

emr-spark-8.0.0 組態分類

組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態 XML 檔案,例如 hive-site.xml。如需詳細資訊,請參閱設定應用程式

當您為執行中叢集的執行個體群組指定組態時,就會發生重新設定動作。Amazon EMR 只會為您修改的分類啟動重新設定動作。如需詳細資訊,請參閱重新設定執行中叢集中的執行個體群組

emr-spark-8.0.0 分類
分類 說明 重新設定動作

capacity-scheduler

變更 Hadoop 中 capacity-scheduler.xml 檔案的值。

Restarts the ResourceManager service.

container-executor

在 Hadoop YARN 的 container-executor.cfg 檔案中變更值。

Not available.

container-log4j

變更 Hadoop YARN 的 container-log4j.properties 檔案中的值。

Not available.

core-site

變更 Hadoop 中 core-site.xml 檔案的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

docker-conf

變更 Docker 相關設定。

Not available.

hadoop-env

在 Hadoop 環境中變更所有 Hadoop 元件的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

hadoop-log4j

變更 Hadoop 中 log4j.properties 檔案的值。

Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer.

hadoop-ssl-server

變更 hadoop ssl 伺服器組態

Not available.

hadoop-ssl-client

變更 hadoop ssl 用戶端組態

Not available.

hdfs-encryption-zones

設定 HDFS 加密區域。

This classification should not be reconfigured.

hdfs-env

變更 HDFS 環境中的值。

Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC.

hdfs-site

變更 HDFS 的 hdfs-site.xml 中的值。

Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs.

httpfs-env

變更 HTTPFS 環境中的值。

Restarts Hadoop Httpfs service.

httpfs-site

變更 Hadoop 中 httpfs-site.xml 檔案的值。

Restarts Hadoop Httpfs service.

hadoop-kms-acls

變更 Hadoop 中 kms-acls.xml 檔案的值。

Not available.

hadoop-kms-env

變更 Hadoop KMS 環境中的值。

Restarts Hadoop-KMS service.

hadoop-kms-java-home

變更 Hadoop 的 KMS Java Home

Not available.

hadoop-kms-log4j

變更 Hadoop 的 kms-log4j.properties 檔案中的值。

Not available.

hadoop-kms-site

變更 Hadoop 中 kms-site.xml 檔案的值。

Restarts Hadoop-KMS.

hudi-env

變更 Hudi 環境中的值。

Not available.

hudi-defaults

變更 Hudi 的 hudi-defaults.conf 檔案中的值。

Not available.

iceberg-defaults

變更 Iceberg 的 iceberg-defaults.conf 檔案中的值。

Not available.

delta-defaults

變更 Delta 的 delta-defaults.conf 檔案中的值。

Not available.

jupyter-notebook-conf

變更 Jupyter 筆記本中 jupyter_notebook_config.py 檔案的值。

Not available.

jupyter-s3-conf

設定 Jupyter 筆記本 S3 持久性。

Not available.

jupyter-sparkmagic-conf

變更 Sparkmagic 中 config.json 檔案的值。

Not available.

livy-conf

變更 Livy 的 livy.conf 檔案中的值。

Restarts Livy Server.

livy-env

變更 Livy 環境中的值。

Restarts Livy Server.

livy-log4j2

變更 Livy log4j2.properties 設定。

Restarts Livy Server.

mapred-env

變更 MapReduce 應用程式環境中的值。

Restarts Hadoop MapReduce-HistoryServer.

mapred-site

變更 MapReduce 應用程式 mapred-site.xml 檔案中的值。

Restarts Hadoop MapReduce-HistoryServer.

spark

Apache Spark 的 Amazon EMR 彙整設定。

This property modifies spark-defaults. See actions there.

spark-defaults

變更 Spark 的 spark-defaults.conf 檔案中的值。

Restarts Spark history server and Spark thrift server.

spark-env

變更 Spark 環境中的值。

Restarts Spark history server and Spark thrift server.

spark-hive-site

變更 Spark 的 hive-site.xml 檔案中的值

Not available.

spark-log4j2

變更 Spark 中 log4j2.properties 檔案中的值。

Restarts Spark history server and Spark thrift server.

spark-metrics

變更 Spark 中 metrics.properties 檔案的值。

Restarts Spark history server and Spark thrift server.

yarn-env

變更 YARN 環境中的值。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer.

yarn-site

變更 YARN 的 yarn-site.xml 檔案中的值。

Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer.

zookeeper-config

變更 ZooKeeper 的 zoo.cfg 檔案中的值。

Restarts Zookeeper server.

zookeeper-logback

變更 ZooKeeper 的 logback.xml 檔案中的值。

Restarts Zookeeper server.

cloudwatch-logs

設定 EMR 叢集節點的 CloudWatch Logs 整合。

Not available.

emr-metrics

變更此節點的 emr 指標設定。

Restarts the CloudWatchAgent service.

EMR Spark 8.0.0 變更日誌

EMR Spark 8.0.0 的變更日誌
Date事件說明
2026-05-21文件出版Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) 版本備註首次發佈