本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS runtime for Apache Spark (emr-spark-8.0-預覽)
下表列出 AWS runtime for Apache Spark(emr-spark-8.0-preview) 可用的應用程式版本。
| 應用程式 | 版本 |
|---|---|
| Spark | 4.0.1-amzn-0 |
AWS runtime for Apache Spark (emr-spark-8.0-preview) 版本備註
-
預覽版本 – 這是
AWS runtime for Apache Spark具有 Apache Spark 4.0.1 的預覽版本。此預覽僅適用於 EMR Serverless。 -
區域可用性 - 此預覽版本適用於所有可使用 EMR Serverless AWS 的區域,但中國和 AWS GovCloud (US) 區域除外。
-
應用程式版本資訊 - 此版本隨附下列應用程式版本:
-
AWS 適用於 Java 的 SDK 2.35.5, 1.12.792
-
Python 3.9、 3.11, 3.12
-
Scala 2.13.16
-
AmazonCloudWatchAgent 1.300034.0-amzn-0
-
Delta 4.0.0-amzn-0-spark
-
Iceberg 1.10.0-amzn-spark-0
-
對於支援 Corretto 17 (JDK 17) 的應用程式,此版本預設隨附 Amazon Corretto 17 (在 OpenJDK 上建置)。
-
-
預覽限制 - 此預覽版本不提供下列功能:
-
互動式和整合功能:不支援 SageMaker Unified Studio、EMR Studio 整合、Spark Connect、Livy 和 JupyterEnterpriseGateway。
-
資料表格式和存取控制:不支援具有資料列層級或資料欄層級篩選和 DDL/DML 運算子的 Hudi、Delta Universal Format 和精細存取控制 (FGAC)。
-
資料連接器:無法使用 spark-sql-kinesis、emr-dynamodb 和 spark-redshift 連接器。
-
歷史記錄伺服器:此預覽版本中無法使用持久性 Spark 歷史記錄伺服器。使用者仍然可以存取即時 Spark UI,以即時監控和偵錯作用中的無伺服器任務。
-
特殊功能:具體化視觀表不可用。
-
-
預覽功能 - 您可以在此預覽版本中測試下列功能。此預覽版本不建議用於生產工作負載:
-
SQL 功能:具有更嚴格類型處理的 ANSI SQL 模式、用於鏈結操作的 SQL PIPE 語法 (|>)、用於半結構化 JSON 資料的 VARIANT 資料類型、具有控制流程陳述式和工作階段變數的 SQL 指令碼,以及 SQL 使用者定義的函數。
-
串流增強功能:具有 transformWithState 運算子的任意狀態處理 API v2、可查詢串流狀態的狀態資料來源讀取器 (實驗性),以及具有改善 RocksDB 變更日誌檢查點的增強型狀態存放區。
-
資料表格式支援:支援 VARIANT 資料類型的 Apache Iceberg v3、 AWS S3 Tables 整合,以及 AWS Lake Formation 適用於 Iceberg、Delta Lake 和 Hive 資料表的 Full Table Access (FTA)。
-
-
其他文件 - 如需其他 Apache Spark 文件,請參閱 Apache Spark 4.0.1 版本文件。
開始使用
若要開始使用 Apache Spark 4.0.1 預覽,請使用 CLI AWS 建立 EMR Serverless 應用程式:
aws emr-serverless create-application --type spark \ --release-label emr-spark-8.0-preview \ --region us-east-1 --name spark4-preview