

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS Apache Spark 的執行時間 (emr-spark-8.0.0)
<a name="emr-spark800-release"></a>

## emr-spark-8.0.0 支援的生命週期
<a name="emr-spark800-supported-lifecycle"></a>

下表說明 Amazon EMR Spark 8.0.0 支援的生命週期日期。


| 支援階段 | Date | 
| --- | --- | 
| 初始發行日期 | 2026 年 5 月 21 日 | 
| 標準支援，直到 | 2027 年 5 月 20 日 | 
| 生命週期結束 | 2027 年 5 月 20 日 | 

## emr-spark-8.0.0 應用程式版本
<a name="emr-spark800-app-versions"></a>

此版本包含下列應用程式：[https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)、[https://delta.io/](https://delta.io/)、[https://hudi.apache.org](https://hudi.apache.org)、[https://iceberg.apache.org/](https://iceberg.apache.org/)、[https://livy.incubator.apache.org/](https://livy.incubator.apache.org/)、 [https://jupyter-enterprise-gateway.readthedocs.io/en/latest/](https://jupyter-enterprise-gateway.readthedocs.io/en/latest/)和 [https://spark.apache.org/docs/latest/](https://spark.apache.org/docs/latest/)。

下表列出此 Amazon EMR 版本中提供的應用程式版本，以及前三個 Amazon EMR 版本 (如果適用) 中的應用程式版本。

如需完整了解各 Amazon EMR 版之應用程式版本的完整歷史記錄，請參閱以下主題：
+ [Amazon EMR 7.x 版中的應用程式版本](emr-release-app-versions-7.x.md)
+ [Amazon EMR 6.x 版之應用程式版本](emr-release-app-versions-6.x.md)
+ [Amazon EMR 5.x 版之應用程式版本](emr-release-app-versions-5.x.md)
+ [Amazon EMR 4.x 版之應用程式版本](emr-release-app-versions-4.x.md)


**應用程式版本資訊**  

|  | emr-spark-8.0.0 | 
| --- | --- | 
| AWS 適用於 Java 的 SDK | 2.41.32 | 
| Python | 3.11、3.12、3.13 | 
| Scala | 2.13.16 | 
| AmazonCloudWatchAgent | 1.300032.2-amzn-0 | 
| Delta | 4.0.0-amzn-1-spark | 
| Hudi | 1.1.0-amzn-0 | 
| Iceberg | 1.10.1-amzn-0 | 
| JupyterEnterpriseGateway | 2.6.0 | 
| Livy | 0.8.0 培養 | 
| Spark | 4.0.2-amzn-0 | 

## emr-spark-8.0.0 版本備註
<a name="emr-spark800-relnotes"></a>

下列版本備註包含具有 Apache Spark 4.0.2 的 Amazon EMR 8.0.0 版 (emr-spark-8.0.0) 資訊。

### 新功能
<a name="emrspark800-whatsnew"></a>
+ **Apache Spark 4.0.2 GA** — Amazon EMR 上 Spark 4.x 的第一個生產就緒版本，基於具有 Amazon 修補程式的 branch-4.0 上游分支，以實現效能、安全性和整合。
+ **適用於 EC2、EKS 和 Serverless** — 此版本適用於所有 Amazon EMR 部署模式。
+ **ANSI SQL 模式** — 預設啟用更嚴格的類型處理，可改善 SQL 正確性和與標準 SQL 行為的相容性。
+ **SQL PIPE 語法** — 新的 \|> 運算子，用於以更易於讀取的管道樣式語法鏈結 SQL 操作。
+ **VARIANT 資料類型** — 原生支援使用 VARIANT 類型的半結構化 JSON 資料，無需明確schema-on-read結構描述模式。
+ **SQL 指令碼：**控制流程陳述式 (IF/ELSE、WHILE、FOR) 和工作階段變數，用於 Spark SQL 中的程序式 SQL 邏輯。
+ **SQL 使用者定義函數** — 直接在 SQL 中定義 UDFs而不需要 Scala/Python 程式碼。
+ **串流增強功能** — 具有 transformWithState 運算子和增強型 RocksDB 變更日誌檢查點的任意狀態處理 API v2。
+ **Apache Iceberg v3 支援** — Iceberg 資料表、 AWS S3 Tables 整合中的 VARIANT 資料類型支援。
+ **原生精細存取控制和完整資料表存取 (FTA)** — 支援 Iceberg、Delta Lake 和 Hive 資料表。
+ **JDK 17 預設** — Amazon Corretto 17 是預設 JVM；也可使用 JDK 21。
+ **Scala 2.13** — Spark 4.x 捨棄 Scala 2.12 支援；針對 Scala 2.13 建置的所有元件。

### emr-spark-8.0-preview 以來的變更和增強功能
<a name="emrspark800-changes"></a>
+ Livy 和 JupyterEnterpriseGateway 可作為互動式工作負載應用程式使用
+ 持久性 Spark 歷史記錄伺服器支援

### 已知問題和限制
<a name="emrspark800-known-issues"></a>
+ 此版本不提供具有原生 FGAC 支援的 Spark Connect 安全端點。
+ AL2023 以系統 Python 的形式提供 Python 3.9，但不支援 PySpark 工作負載。

### 從 EMR 7.x 遷移 (Spark 3.5.x)
<a name="emrspark800-migration"></a>

從 EMR 7.x （使用 Spark 3.5.x) 遷移至 emr-spark-8.0.0 (Spark 4.0.2) 時，請考慮使用 [Spark 升級代理](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/spark-upgrades.html)程式來協助遷移。
+ **ANSI SQL 模式是預設**的 — 更嚴格的強制類型；先前成功的隱含轉換現在可能會擲回錯誤。
+ **Scala 2.13** — 所有 Spark 4.x 組建都使用 Scala 2.13。重新編譯針對 Scala 2.12 建置的任何自訂 JARs。
+ **JDK 17 預設** — Spark 4.0.2 僅支援 JDK 17 （預設） 和 JDK 21。
+ **Python 3.11 預設** — Python 3.9 不再是 PySpark 的預設值。驗證 Python 相依性的相容性。
+ **AWS SDK** — 已移除適用於 Java 的 AWS SDK v1。更新您的應用程式以使用 AWS SDK v2 來改善效能和資源管理。
+ **S3 存取** — EMRFS 不再可用。使用 S3A 連接器將持久性資料寫入 Amazon S3，以獲得更好的效能和相容性。請參閱[使用 EMR S3A 最佳化 Apache Spark 的 Amazon EMR 執行期](https://aws.amazon.com/blogs/big-data/optimize-amazon-emr-runtime-for-apache-spark-with-emr-s3a/)。emr-s3-select 已移除。
+ **互動式開發**：不再包含 JupyterHub、Zeppelin 和 Hue。對於互動式 Spark 開發，請使用 EMR Studio、Livy 和 JupyterEnterpriseGateway。
+ **獨立發行訓練** — 發行標籤為 emr-spark-8.0.0，而非 emr-8.0.0。此版本著重於 Spark。對於 Flink、HBase、Phoenix、Tez、Trino、Presto，使用 EMR 7.x 並等待未來的 emr-8.0.0 多引擎版本。Pig 和 Oozie 不包含在內。
+ **EMR 叢集通訊的 VPC 端點** — 從 Amazon EMR Spark 8.0.0 開始，Amazon EMR on EC2 會在 VPC 中佈建 VPC 端點，以便在私有子網路中啟動叢集時，Amazon EMR 服務與叢集之間進行通訊。您的 Amazon EMR 服務角色必須包含 `ec2:CreateVpcEndpoint`和 `ec2:ModifyVpcEndpoint`許可，或者您必須在啟動叢集之前手動建立 VPC 端點。VPC 端點服務名稱為 `aws.api.{{region}}.emr-service-cell01`。
  + 此變更會更新私有子網路叢集的網路需求：
    + 連接到 VPC 端點的服務存取安全群組 (`ElasticMapReduce-ServiceAccess`) 需要 VPC CIDR 區塊的傳入 HTTPS （連接埠 443)。Amazon EMR 7.x 版和更早版本中使用的連接埠 8443/9443 規則已不再需要。
    + 主要執行個體安全群組需要傳出 HTTPS （連接埠 443) 給服務存取安全群組。
    + 主要、核心和任務執行個體安全群組不再需要 Amazon EMR 7.x 版及更早版本的傳入連接埠 8443 和傳出連接埠 9443 規則。
    + 如果您使用 Amazon S3 的自訂 VPC 端點政策，則必須允許存取 Amazon EMR 執行個體資料儲存貯體 (`aws157-instance-data-0-prod-{{region}}` 和 `aws157-instance-data-1-prod-{{region}}`)。
  + 如需詳細資訊，請參閱《Amazon [EMR 管理指南》中的私有子網路中的 EMR 叢集](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-clusters-in-a-vpc.html#emr-vpc-private-subnet)、Amazon [EMR 受管安全群組](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-man-sec-groups.html)，以及[私有子網路的最小 Amazon S3 政策](https://docs.aws.amazon.com/emr/latest/ManagementGuide/private-subnet-iampolicy.html)。 **

## emr-spark-8.0.0 預設 Java 版本
<a name="emr-spark800-jdk"></a>


| 應用程式 | Java/Amazon Corretto 版本 (預設為粗體) | 
| --- | --- | 
| Spark | 17、21 | 
| Livy | 17、11、8 | 
| Hadoop | 17、11、8 | 

## emr-spark-8.0.0 元件版本
<a name="emr-spark800-components"></a>

Amazon EMR 在此版本安裝的元件列出如下。其中有一些屬於大數據應用程式套件。其他的則為 Amazon EMR 獨有，並安裝為系統程序和功能。這些通常會以 `emr` 或 `aws` 開頭。在最新 Amazon EMR 版本中的大數據應用程式套件，通常也是社群中可找到的最新版本。我們致力盡快提供 Amazon EMR 的社群版本。

Amazon EMR 中的某些元件與社群版本不同。這些元件具有版本標籤，格式為 `{{CommunityVersion}}-amzn-{{EmrVersion}}`。`{{EmrVersion}}` 從 0 開始。例如，假設有一個名為 `myapp-component` 的開放原始碼社群元件 2.2 版為了包含在不同 Amazon EMR 發行版本中而修改過三次，則其發行版本會列為 `2.2-amzn-2`。


| 元件 | 版本 | 說明 | 
| --- | --- | --- | 
| adot-java-agent | 1.31.0 | 從應用程式常駐程式收集指標的 Java 代理程式。 | 
| delta | 4.0.0-amzn-1-spark | Delta Lake 是一種適用於大型分析資料集的開放式資料表格式 | 
| emr-amazon-cloudwatch-agent | 1.300032.2-amzn-0 | 從 Amazon EC2 執行個體收集內部系統層級指標和自訂應用程式指標的應用程式。 | 
| emr-ddb | 6.0.0 | 適用於 Hadoop 生態系統應用程式的 Amazon DynamoDB 連接器。 | 
| emr-goodies | 3.22.0-spark | 適用 Hadoop 生態系統的超便利程式庫。 | 
| emr-notebook-env | 1.18.0 | 適用於 emr 筆記本的 Conda env，前者包含 Jupyter Enterprise Gateway | 
| emr-s3-dist-cp | 2.44.0 | 針對 Amazon S3 最佳化的分散式複製應用程式。 | 
| hadoop-client | 3.4.2-amzn-1 | Hadoop 命令列用戶端，例如「hdfs」、「Hadoop」或「yarn」。 | 
| hadoop-hdfs-datanode | 3.4.2-amzn-1 | 用於存放區塊的 HDFS 節點層級服務。 | 
| hadoop-hdfs-library | 3.4.2-amzn-1 | HDFS 命令列用戶端和程式庫 | 
| hadoop-hdfs-namenode | 3.4.2-amzn-1 | 用於追蹤檔案名稱和區塊位置的 HDFS 服務。 | 
| hadoop-hdfs-zkfc | 3.4.2-amzn-1 | 用於追蹤 HA 模式名稱節點的 ZKFC 服務。 | 
| hadoop-hdfs-journalnode | 3.4.2-amzn-1 | HDFS 檔案系統中的 Hadoop 服務，用於管理在 HA 叢集。 | 
| hadoop-httpfs-server | 3.4.2-amzn-1 | HDFS 操作的 HTTP 端點。 | 
| hadoop-kms-server | 3.4.2-amzn-1 | 以 Hadoop 金鑰供應商 API 為基礎的加密金鑰管理伺服器。 | 
| hadoop-mapred | 3.4.2-amzn-1 | 執行 MapReduce 應用程式的 MapReduce 執行引擎程式庫。 | 
| hadoop-yarn-nodemanager | 3.4.2-amzn-1 | 在個別節點用於管理容器的 YARN 服務。 | 
| hadoop-yarn-resourcemanager | 3.4.2-amzn-1 | 用於分配和管理叢集資源，以及分散式應用程式的 YARN 服務。 | 
| hadoop-yarn-timeline-server | 3.4.2-amzn-1 | 為 YARN 應用程式擷取目前和歷史資訊的服務。 | 
| hudi | 1.1.0-amzn-0 | 增量處理架構，以低延遲和高效率強化資料管道。 | 
| hudi-spark | 1.1.0-amzn-0 | 用於使用 Hudi 執行 Spark 的套件程式庫。 | 
| iceberg | 1.10.1-amzn-0 | Apache Iceberg 是一種適用於大型分析資料集的開放式資料表格式 | 
| livy-server | 0.8.0 培養 | 與 Apache Spark 互動的 REST 介面 | 
| nginx | 1.12.1 | nginx [engine x] 是 HTTP 和反向代理伺服器 | 
| mariadb-server | 5.5.68\+ | MariaDB 資料庫伺服器。 | 
| nvidia-cuda | 12.5.0 | Nvidia 驅動程式和 Cuda 工具組 | 
| r | 4.3.2 | 統計運算 R 專案 | 
| spark-client | 4.0.2-amzn-0 | Spark 命令列用戶端。 | 
| spark-history-server | 4.0.2-amzn-0 | 用於檢視完整 Spark 應用程式生命週期記錄事件的 Web 使用者介面。 | 
| spark-on-yarn | 4.0.2-amzn-0 | 適用於 YARN 的記憶體內執行引擎。 | 
| spark-yarn-slave | 4.0.2-amzn-0 | YARN 從屬所需的 Apache Spark 程式庫。 | 
| spark-rapids | 26.02.2-amzn-0 | Nvidia Spark RAPIDS 外掛程式使用 GPU 加速 Apache Spark。 | 
| zookeeper-server | 3.9.3-amzn-6 | 用於維護組態資訊、命名、提供分散式同步，並提供群組服務的集中化服務。 | 
| zookeeper-client | 3.9.3-amzn-6 | ZooKeeper 命令列用戶端。 | 

## emr-spark-8.0.0 組態分類
<a name="emr-spark800-class"></a>

組態分類可讓您自訂應用程式。這些檔案通常對應於應用程式的組態 XML 檔案，例如 `hive-site.xml`。如需詳細資訊，請參閱[設定應用程式](emr-configure-apps.md)。

當您為執行中叢集的執行個體群組指定組態時，就會發生重新設定動作。Amazon EMR 只會為您修改的分類啟動重新設定動作。如需詳細資訊，請參閱[重新設定執行中叢集中的執行個體群組](emr-configure-apps-running-cluster.md)。


**emr-spark-8.0.0 分類**  

| 分類 | 說明 | 重新設定動作 | 
| --- | --- | --- | 
| capacity-scheduler | 變更 Hadoop 中 capacity-scheduler.xml 檔案的值。 | Restarts the ResourceManager service. | 
| container-executor | 在 Hadoop YARN 的 container-executor.cfg 檔案中變更值。 | Not available. | 
| container-log4j | 變更 Hadoop YARN 的 container-log4j.properties 檔案中的值。 | Not available. | 
| core-site | 變更 Hadoop 中 core-site.xml 檔案的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. | 
| docker-conf | 變更 Docker 相關設定。 | Not available. | 
| hadoop-env | 在 Hadoop 環境中變更所有 Hadoop 元件的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. | 
| hadoop-log4j | 變更 Hadoop 中 log4j.properties 檔案的值。 | Restarts the Hadoop HDFS services SecondaryNamenode, Datanode, and Journalnode. Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Hadoop KMS, Hadoop Httpfs, and MapReduce-HistoryServer. | 
| hadoop-ssl-server | 變更 hadoop ssl 伺服器組態 | Not available. | 
| hadoop-ssl-client | 變更 hadoop ssl 用戶端組態 | Not available. | 
| hdfs-encryption-zones | 設定 HDFS 加密區域。 | This classification should not be reconfigured. | 
| hdfs-env | 變更 HDFS 環境中的值。 | Restarts Hadoop HDFS services Namenode, Datanode, and ZKFC. | 
| hdfs-site | 變更 HDFS 的 hdfs-site.xml 中的值。 | Restarts the Hadoop HDFS services Namenode, SecondaryNamenode, Datanode, ZKFC, and Journalnode. Additionally restarts Hadoop Httpfs. | 
| httpfs-env | 變更 HTTPFS 環境中的值。 | Restarts Hadoop Httpfs service. | 
| httpfs-site | 變更 Hadoop 中 httpfs-site.xml 檔案的值。 | Restarts Hadoop Httpfs service. | 
| hadoop-kms-acls | 變更 Hadoop 中 kms-acls.xml 檔案的值。 | Not available. | 
| hadoop-kms-env | 變更 Hadoop KMS 環境中的值。 | Restarts Hadoop-KMS service. | 
| hadoop-kms-java-home | 變更 Hadoop 的 KMS Java Home | Not available. | 
| hadoop-kms-log4j | 變更 Hadoop 的 kms-log4j.properties 檔案中的值。 | Not available. | 
| hadoop-kms-site | 變更 Hadoop 中 kms-site.xml 檔案的值。 | Restarts Hadoop-KMS. | 
| hudi-env | 變更 Hudi 環境中的值。 | Not available. | 
| hudi-defaults | 變更 Hudi 的 hudi-defaults.conf 檔案中的值。 | Not available. | 
| iceberg-defaults | 變更 Iceberg 的 iceberg-defaults.conf 檔案中的值。 | Not available. | 
| delta-defaults | 變更 Delta 的 delta-defaults.conf 檔案中的值。 | Not available. | 
| jupyter-notebook-conf | 變更 Jupyter 筆記本中 jupyter\_notebook\_config.py 檔案的值。 | Not available. | 
| jupyter-s3-conf | 設定 Jupyter 筆記本 S3 持久性。 | Not available. | 
| jupyter-sparkmagic-conf | 變更 Sparkmagic 中 config.json 檔案的值。 | Not available. | 
| livy-conf | 變更 Livy 的 livy.conf 檔案中的值。 | Restarts Livy Server. | 
| livy-env | 變更 Livy 環境中的值。 | Restarts Livy Server. | 
| livy-log4j2 | 變更 Livy log4j2.properties 設定。 | Restarts Livy Server. | 
| mapred-env | 變更 MapReduce 應用程式環境中的值。 | Restarts Hadoop MapReduce-HistoryServer. | 
| mapred-site | 變更 MapReduce 應用程式 mapred-site.xml 檔案中的值。 | Restarts Hadoop MapReduce-HistoryServer. | 
| spark | Apache Spark 的 Amazon EMR 彙整設定。 | This property modifies spark-defaults. See actions there. | 
| spark-defaults | 變更 Spark 的 spark-defaults.conf 檔案中的值。 | Restarts Spark history server and Spark thrift server. | 
| spark-env | 變更 Spark 環境中的值。 | Restarts Spark history server and Spark thrift server. | 
| spark-hive-site | 變更 Spark 的 hive-site.xml 檔案中的值 | Not available. | 
| spark-log4j2 | 變更 Spark 中 log4j2.properties 檔案中的值。 | Restarts Spark history server and Spark thrift server. | 
| spark-metrics | 變更 Spark 中 metrics.properties 檔案的值。 | Restarts Spark history server and Spark thrift server. | 
| yarn-env | 變更 YARN 環境中的值。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts MapReduce-HistoryServer. | 
| yarn-site | 變更 YARN 的 yarn-site.xml 檔案中的值。 | Restarts the Hadoop YARN services ResourceManager, NodeManager, ProxyServer, and TimelineServer. Additionally restarts Livy Server and MapReduce-HistoryServer. | 
| zookeeper-config | 變更 ZooKeeper 的 zoo.cfg 檔案中的值。 | Restarts Zookeeper server. | 
| zookeeper-logback | 變更 ZooKeeper 的 logback.xml 檔案中的值。 | Restarts Zookeeper server. | 
| cloudwatch-logs | 設定 EMR 叢集節點的 CloudWatch Logs 整合。 | Not available. | 
| emr-metrics | 變更此節點的 emr 指標設定。 | Restarts the CloudWatchAgent service. | 

## EMR Spark 8.0.0 變更日誌
<a name="emrspark800-changelog"></a>


**EMR Spark 8.0.0 的變更日誌**  

| Date | 事件 | 說明 | 
| --- | --- | --- | 
| 2026-05-21 | 文件出版 | Amazon EMR Spark 8.0.0 (emr-spark-8.0.0) 版本備註首次發佈 | 