本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Apache Spark 的執行時間 (emr-spark-8.0.0)
emr-spark-8.0.0 支援的生命週期
下表說明 Amazon EMR Spark 8.0.0 支援的生命週期日期。
| 支援階段 | Date |
|---|---|
| 初始發行日期 | 2026 年 5 月 21 日 |
| 標準支援,直到 | 2027 年 5 月 20 日 |
| 生命週期結束 | 2027 年 5 月 20 日 |
emr-spark-8.0.0 應用程式版本
此版本包含下列應用程式:AmazonCloudWatchAgent、Delta
下表列出此 Amazon EMR 版本中提供的應用程式版本,以及前三個 Amazon EMR 版本 (如果適用) 中的應用程式版本。
如需完整了解各 Amazon EMR 版之應用程式版本的完整歷史記錄,請參閱以下主題:
| emr-spark-8.0.0 | |
|---|---|
| AWS 適用於 Java 的 SDK | 2.41.32 |
| Python | 3.11、3.12、3.13 |
| Scala | 2.13.16 |
| AmazonCloudWatchAgent | 1.300032.2-amzn-0 |
| Delta | 4.0.0-amzn-1-spark |
| Hudi | 1.1.0-amzn-0 |
| Iceberg | 1.10.1-amzn-0 |
| JupyterEnterpriseGateway | 2.6.0 |
| Livy | 0.8.0 培養 |
| Spark | 4.0.2-amzn-0 |
emr-spark-8.0.0 版本備註
下列版本備註包含具有 Apache Spark 4.0.2 的 Amazon EMR 8.0.0 版 (emr-spark-8.0.0) 資訊。
新功能
Apache Spark 4.0.2 GA — Amazon EMR 上 Spark 4.x 的第一個生產就緒版本,基於具有 Amazon 修補程式的 branch-4.0 上游分支,以實現效能、安全性和整合。
適用於 EC2、EKS 和 Serverless — 此版本適用於所有 Amazon EMR 部署模式。
ANSI SQL 模式 — 預設啟用更嚴格的類型處理,可改善 SQL 正確性和與標準 SQL 行為的相容性。
SQL PIPE 語法 — 新的 |> 運算子,用於以更易於讀取的管道樣式語法鏈結 SQL 操作。
VARIANT 資料類型 — 原生支援使用 VARIANT 類型的半結構化 JSON 資料,無需明確schema-on-read結構描述模式。
SQL 指令碼:控制流程陳述式 (IF/ELSE、WHILE、FOR) 和工作階段變數,用於 Spark SQL 中的程序式 SQL 邏輯。
SQL 使用者定義函數 — 直接在 SQL 中定義 UDFs而不需要 Scala/Python 程式碼。
串流增強功能 — 具有 transformWithState 運算子和增強型 RocksDB 變更日誌檢查點的任意狀態處理 API v2。
Apache Iceberg v3 支援 — Iceberg 資料表、 AWS S3 Tables 整合中的 VARIANT 資料類型支援。
原生精細存取控制和完整資料表存取 (FTA) — 支援 Iceberg、Delta Lake 和 Hive 資料表。
JDK 17 預設 — Amazon Corretto 17 是預設 JVM;也可使用 JDK 21。
Scala 2.13 — Spark 4.x 捨棄 Scala 2.12 支援;針對 Scala 2.13 建置的所有元件。
emr-spark-8.0-preview 以來的變更和增強功能
Livy 和 JupyterEnterpriseGateway 可作為互動式工作負載應用程式使用
持久性 Spark 歷史記錄伺服器支援
已知問題和限制
此版本不提供具有原生 FGAC 支援的 Spark Connect 安全端點。
AL2023 以系統 Python 的形式提供 Python 3.9,但不支援 PySpark 工作負載。
從 EMR 7.x 遷移 (Spark 3.5.x)
從 EMR 7.x (使用 Spark 3.5.x) 遷移至 emr-spark-8.0.0 (Spark 4.0.2) 時,請考慮使用 Spark 升級代理程式來協助遷移。
ANSI SQL 模式是預設的 — 更嚴格的強制類型;先前成功的隱含轉換現在可能會擲回錯誤。
Scala 2.13 — 所有 Spark 4.x 組建都使用 Scala 2.13。重新編譯針對 Scala 2.12 建置的任何自訂 JARs。
JDK 17 預設 — Spark 4.0.2 僅支援 JDK 17 (預設) 和 JDK 21。
Python 3.11 預設 — Python 3.9 不再是 PySpark 的預設值。驗證 Python 相依性的相容性。
AWS SDK — 已移除適用於 Java 的 AWS SDK v1。更新您的應用程式以使用 AWS SDK v2 來改善效能和資源管理。
S3 存取 — EMRFS 不再可用。使用 S3A 連接器將持久性資料寫入 Amazon S3,以獲得更好的效能和相容性。請參閱使用 EMR S3A 最佳化 Apache Spark 的 Amazon EMR 執行期
。emr-s3-select 已移除。 互動式開發:不再包含 JupyterHub、Zeppelin 和 Hue。對於互動式 Spark 開發,請使用 EMR Studio、Livy 和 JupyterEnterpriseGateway。
獨立發行訓練 — 發行標籤為 emr-spark-8.0.0,而非 emr-8.0.0。此版本著重於 Spark。對於 Flink、HBase、Phoenix、Tez、Trino、Presto,使用 EMR 7.x 並等待未來的 emr-8.0.0 多引擎版本。Pig 和 Oozie 不包含在內。
EMR 叢集通訊的 VPC 端點 — 從 Amazon EMR Spark 8.0.0 開始,Amazon EMR on EC2 會在 VPC 中佈建 VPC 端點,以便在私有子網路中啟動叢集時,Amazon EMR 服務與叢集之間進行通訊。您的 Amazon EMR 服務角色必須包含
ec2:CreateVpcEndpoint和ec2:ModifyVpcEndpoint許可,或者您必須在啟動叢集之前手動建立 VPC 端點。VPC 端點服務名稱為aws.api.。region.emr-service-cell01此變更會更新私有子網路叢集的網路需求:
連接到 VPC 端點的服務存取安全群組 (
ElasticMapReduce-ServiceAccess) 需要 VPC CIDR 區塊的傳入 HTTPS (連接埠 443)。Amazon EMR 7.x 版和更早版本中使用的連接埠 8443/9443 規則已不再需要。主要執行個體安全群組需要傳出 HTTPS (連接埠 443) 給服務存取安全群組。
主要、核心和任務執行個體安全群組不再需要 Amazon EMR 7.x 版及更早版本的傳入連接埠 8443 和傳出連接埠 9443 規則。
如果您使用 Amazon S3 的自訂 VPC 端點政策,則必須允許存取 Amazon EMR 執行個體資料儲存貯體 (
aws157-instance-data-0-prod-和regionaws157-instance-data-1-prod-)。region
如需詳細資訊,請參閱《Amazon EMR 管理指南》中的私有子網路中的 EMR 叢集、Amazon EMR 受管安全群組,以及私有子網路的最小 Amazon S3 政策。
emr-spark-8.0.0 預設 Java 版本
| 應用程式 | Java/Amazon Corretto 版本 (預設為粗體) |
|---|---|
| Spark | 17、21 |
| Livy | 17、11、8 |
| Hadoop | 17、11、8 |
emr-spark-8.0.0 元件版本
Amazon EMR 在此版本安裝的元件列出如下。其中有一些屬於大數據應用程式套件。其他的則為 Amazon EMR 獨有,並安裝為系統程序和功能。這些通常會以 emr 或 aws 開頭。在最新 Amazon EMR 版本中的大數據應用程式套件,通常也是社群中可找到的最新版本。我們致力盡快提供 Amazon EMR 的社群版本。
Amazon EMR 中的某些元件與社群版本不同。這些元件具有版本標籤,格式為 。CommunityVersion-amzn-EmrVersion 從 0 開始。例如,假設有一個名為 EmrVersionmyapp-component 的開放原始碼社群元件 2.2 版為了包含在不同 Amazon EMR 發行版本中而修改過三次,則其發行版本會列為 2.2-amzn-2。
| 元件 | 版本 | 說明 |
|---|---|---|
| adot-java-agent | 1.31.0 | 從應用程式常駐程式收集指標的 Java 代理程式。 |
| delta | 4.0.0-amzn-1-spark | Delta Lake 是一種適用於大型分析資料集的開放式資料表格式 |
| emr-amazon-cloudwatch-agent | 1.300032.2-amzn-0 | 從 Amazon EC2 執行個體收集內部系統層級指標和自訂應用程式指標的應用程式。 |
| emr-ddb | 6.0.0 | 適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。 |
| emr-goodies | 3.22.0-spark | 適用 Hadoop 生態系統的超便利程式庫。 |
| emr-notebook-env | 1.18.0 | 適用於 emr 筆記本的 Conda env,前者包含 Jupyter Enterprise Gateway |
| emr-s3-dist-cp | 2.44.0 | 針對 Amazon S3 最佳化的分散式複製應用程式。 |
| hadoop-client | 3.4.2-amzn-1 | Hadoop 命令列用戶端,例如「hdfs」、「Hadoop」或「yarn」。 |
| hadoop-hdfs-datanode | 3.4.2-amzn-1 | 用於存放區塊的 HDFS 節點層級服務。 |
| hadoop-hdfs-library | 3.4.2-amzn-1 | HDFS 命令列用戶端和程式庫 |
| hadoop-hdfs-namenode | 3.4.2-amzn-1 | 用於追蹤檔案名稱和區塊位置的 HDFS 服務。 |
| hadoop-hdfs-zkfc | 3.4.2-amzn-1 | 用於追蹤 HA 模式名稱節點的 ZKFC 服務。 |
| hadoop-hdfs-journalnode | 3.4.2-amzn-1 | HDFS 檔案系統中的 Hadoop 服務,用於管理在 HA 叢集。 |
| hadoop-httpfs-server | 3.4.2-amzn-1 | HDFS 操作的 HTTP 端點。 |
| hadoop-kms-server | 3.4.2-amzn-1 | 以 Hadoop 金鑰供應商 API 為基礎的加密金鑰管理伺服器。 |
| hadoop-mapred | 3.4.2-amzn-1 | 執行 MapReduce 應用程式的 MapReduce 執行引擎程式庫。 |
| hadoop-yarn-nodemanager | 3.4.2-amzn-1 | 在個別節點用於管理容器的 YARN 服務。 |
| hadoop-yarn-resourcemanager | 3.4.2-amzn-1 | 用於分配和管理叢集資源,以及分散式應用程式的 YARN 服務。 |
| hadoop-yarn-timeline-server | 3.4.2-amzn-1 | 為 YARN 應用程式擷取目前和歷史資訊的服務。 |
| hudi | 1.1.0-amzn-0 | 增量處理架構,以低延遲和高效率強化資料管道。 |
| hudi-spark | 1.1.0-amzn-0 | 用於使用 Hudi 執行 Spark 的套件程式庫。 |
| iceberg | 1.10.1-amzn-0 | Apache Iceberg 是一種適用於大型分析資料集的開放式資料表格式 |
| livy-server | 0.8.0 培養 | 與 Apache Spark 互動的 REST 介面 |
| nginx | 1.12.1 | nginx [engine x] 是 HTTP 和反向代理伺服器 |
| mariadb-server | 5.5.68+ | MariaDB 資料庫伺服器。 |
| nvidia-cuda | 12.5.0 | Nvidia 驅動程式和 Cuda 工具組 |
| r | 4.3.2 | 統計運算 R 專案 |
| spark-client | 4.0.2-amzn-0 | Spark 命令列用戶端。 |
| spark-history-server | 4.0.2-amzn-0 | 用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。 |
| spark-on-yarn | 4.0.2-amzn-0 | 適用於 YARN 的記憶體內執行引擎。 |
| spark-yarn-slave | 4.0.2-amzn-0 | YARN 從屬所需的 Apache Spark 程式庫。 |
| spark-rapids | 26.02.2-amzn-0 | Nvidia Spark RAPIDS 外掛程式使用 GPU 加速 Apache Spark。 |
| zookeeper-server | 3.9.3-amzn-6 | 用於維護組態資訊、命名、提供分散式同步,並提供群組服務的集中化服務。 |
| zookeeper-client | 3.9.3-amzn-6 | ZooKeeper 命令列用戶端。 |
emr-spark-8.0.0 組態分類
組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態 XML 檔案,例如 hive-site.xml。如需詳細資訊,請參閱設定應用程式。
當您為執行中叢集的執行個體群組指定組態時,就會發生重新設定動作。Amazon EMR 只會為您修改的分類啟動重新設定動作。如需詳細資訊,請參閱重新設定執行中叢集中的執行個體群組。
| 分類 | 說明 | 重新設定動作 |
|---|---|---|
capacity-scheduler | 變更 Hadoop 中 capacity-scheduler.xml 檔案的值。 | Restarts the ResourceManager service. |
container-executor | 在 Hadoop YARN 的 container-executor.cfg 檔案中變更值。 | Not available. |
container-log4j | 變更 Hadoop YARN 的 container-log4j.properties 檔案中的值。 | Not available. |
core-site | 變更 Hadoop 中 core-site.xml 檔案的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
docker-conf | 變更 Docker 相關設定。 | Not available. |
hadoop-env | 在 Hadoop 環境中變更所有 Hadoop 元件的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
hadoop-log4j | 變更 Hadoop 中 log4j.properties 檔案的值。 | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. |
hadoop-ssl-server | 變更 hadoop ssl 伺服器組態 | Not available. |
hadoop-ssl-client | 變更 hadoop ssl 用戶端組態 | Not available. |
hdfs-encryption-zones | 設定 HDFS 加密區域。 | This classification should not be reconfigured. |
hdfs-env | 變更 HDFS 環境中的值。 | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. |
hdfs-site | 變更 HDFS 的 hdfs-site.xml 中的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. |
httpfs-env | 變更 HTTPFS 環境中的值。 | Restarts Hadoop Httpfs service. |
httpfs-site | 變更 Hadoop 中 httpfs-site.xml 檔案的值。 | Restarts Hadoop Httpfs service. |
hadoop-kms-acls | 變更 Hadoop 中 kms-acls.xml 檔案的值。 | Not available. |
hadoop-kms-env | 變更 Hadoop KMS 環境中的值。 | Restarts Hadoop-KMS service. |
hadoop-kms-java-home | 變更 Hadoop 的 KMS Java Home | Not available. |
hadoop-kms-log4j | 變更 Hadoop 的 kms-log4j.properties 檔案中的值。 | Not available. |
hadoop-kms-site | 變更 Hadoop 中 kms-site.xml 檔案的值。 | Restarts Hadoop-KMS. |
hudi-env | 變更 Hudi 環境中的值。 | Not available. |
hudi-defaults | 變更 Hudi 的 hudi-defaults.conf 檔案中的值。 | Not available. |
iceberg-defaults | 變更 Iceberg 的 iceberg-defaults.conf 檔案中的值。 | Not available. |
delta-defaults | 變更 Delta 的 delta-defaults.conf 檔案中的值。 | Not available. |
jupyter-notebook-conf | 變更 Jupyter 筆記本中 jupyter_notebook_config.py 檔案的值。 | Not available. |
jupyter-s3-conf | 設定 Jupyter 筆記本 S3 持久性。 | Not available. |
jupyter-sparkmagic-conf | 變更 Sparkmagic 中 config.json 檔案的值。 | Not available. |
livy-conf | 變更 Livy 的 livy.conf 檔案中的值。 | Restarts Livy Server. |
livy-env | 變更 Livy 環境中的值。 | Restarts Livy Server. |
livy-log4j2 | 變更 Livy log4j2.properties 設定。 | Restarts Livy Server. |
mapred-env | 變更 MapReduce 應用程式環境中的值。 | Restarts Hadoop MapReduce-HistoryServer. |
mapred-site | 變更 MapReduce 應用程式 mapred-site.xml 檔案中的值。 | Restarts Hadoop MapReduce-HistoryServer. |
spark | Apache Spark 的 Amazon EMR 彙整設定。 | This property modifies spark-defaults. See actions there. |
spark-defaults | 變更 Spark 的 spark-defaults.conf 檔案中的值。 | Restarts Spark history server and Spark thrift server. |
spark-env | 變更 Spark 環境中的值。 | Restarts Spark history server and Spark thrift server. |
spark-hive-site | 變更 Spark 的 hive-site.xml 檔案中的值 | Not available. |
spark-log4j2 | 變更 Spark 中 log4j2.properties 檔案中的值。 | Restarts Spark history server and Spark thrift server. |
spark-metrics | 變更 Spark 中 metrics.properties 檔案的值。 | Restarts Spark history server and Spark thrift server. |
yarn-env | 變更 YARN 環境中的值。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. |
yarn-site | 變更 YARN 的 yarn-site.xml 檔案中的值。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. |
zookeeper-config | 變更 ZooKeeper 的 zoo.cfg 檔案中的值。 | Restarts Zookeeper server. |
zookeeper-logback | 變更 ZooKeeper 的 logback.xml 檔案中的值。 | Restarts Zookeeper server. |
cloudwatch-logs | 設定 EMR 叢集節點的 CloudWatch Logs 整合。 | Not available. |
emr-metrics | 變更此節點的 emr 指標設定。 | Restarts the CloudWatchAgent service. |
EMR Spark 8.0.0 變更日誌
| Date | 事件 | 說明 |
|---|---|---|
| 2026-05-21 | 文件出版 | Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) 版本備註首次發佈 |