AWS runtime for Apache Spark (emr-spark-8.0-預覽) - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS runtime for Apache Spark (emr-spark-8.0-預覽)

下表列出 AWS runtime for Apache Spark(emr-spark-8.0-preview) 可用的應用程式版本。

應用程式版本資訊
應用程式 版本
Spark 4.0.1-amzn-0
AWS runtime for Apache Spark (emr-spark-8.0-preview) 版本備註
  • 預覽版本 – 這是AWS runtime for Apache Spark具有 Apache Spark 4.0.1 的預覽版本。此預覽僅適用於 EMR Serverless。

  • 區域可用性 - 此預覽版本適用於所有可使用 EMR Serverless AWS 的區域,但中國和 AWS GovCloud (US) 區域除外。

  • 應用程式版本資訊 - 此版本隨附下列應用程式版本:

    • AWS 適用於 Java 的 SDK 2.35.5, 1.12.792

    • Python 3.9、 3.11, 3.12

    • Scala 2.13.16

    • AmazonCloudWatchAgent 1.300034.0-amzn-0

    • Delta 4.0.0-amzn-0-spark

    • Iceberg 1.10.0-amzn-spark-0

    • 對於支援 Corretto 17 (JDK 17) 的應用程式,此版本預設隨附 Amazon Corretto 17 (在 OpenJDK 上建置)。

  • 預覽限制 - 此預覽版本不提供下列功能:

    • 互動式和整合功能:不支援 SageMaker Unified Studio、EMR Studio 整合、Spark Connect、Livy 和 JupyterEnterpriseGateway。

    • 資料表格式和存取控制:不支援具有資料列層級或資料欄層級篩選和 DDL/DML 運算子的 Hudi、Delta Universal Format 和精細存取控制 (FGAC)。

    • 資料連接器:無法使用 spark-sql-kinesis、emr-dynamodb 和 spark-redshift 連接器。

    • 歷史記錄伺服器:此預覽版本中無法使用持久性 Spark 歷史記錄伺服器。使用者仍然可以存取即時 Spark UI,以即時監控和偵錯作用中的無伺服器任務。

    • 特殊功能:具體化視觀表不可用。

  • 預覽功能 - 您可以在此預覽版本中測試下列功能。此預覽版本不建議用於生產工作負載:

    • SQL 功能:具有更嚴格類型處理的 ANSI SQL 模式、用於鏈結操作的 SQL PIPE 語法 (|>)、用於半結構化 JSON 資料的 VARIANT 資料類型、具有控制流程陳述式和工作階段變數的 SQL 指令碼,以及 SQL 使用者定義的函數。

    • 串流增強功能:具有 transformWithState 運算子的任意狀態處理 API v2、可查詢串流狀態的狀態資料來源讀取器 (實驗性),以及具有改善 RocksDB 變更日誌檢查點的增強型狀態存放區。

    • 資料表格式支援:支援 VARIANT 資料類型的 Apache Iceberg v3、 AWS S3 Tables 整合,以及 AWS Lake Formation 適用於 Iceberg、Delta Lake 和 Hive 資料表的 Full Table Access (FTA)。

  • 其他文件 - 如需其他 Apache Spark 文件,請參閱 Apache Spark 4.0.1 版本文件。

開始使用

若要開始使用 Apache Spark 4.0.1 預覽,請使用 CLI AWS 建立 EMR Serverless 應用程式:

aws emr-serverless create-application --type spark \ --release-label emr-spark-8.0-preview \ --region us-east-1 --name spark4-preview