AWS Glue 版本 - AWS Glue

AWS Glue 版本

您可以在新增或更新任務時設定 AWS Glue 版本參數。AWS Glue 版本決定 AWS Glue 支援的 Apache Spark 和 Python 版本。Python 版本指示針對 Spark 類型任務支援的版本。下表列出可用的 AWS Glue 版本、對應的 Spark 和 Python 版本,以及其他功能變更。

AWS Glue 版本

AWS Glue 版本 支援的執行期環境版本 支援的 Java 版本 功能變更
AWS Glue 5.0
  • Spark 3.5.4

  • Python 3.11

  • Scala 2.12.18

Java 17

除了架構更新之外,此 AWS Glue 版本還內建了一些最佳化和升級,例如:

  • Amazon SageMaker Unified Studio 支援

  • Amazon SageMaker 資料湖倉支援

  • 開放式資料表格式 (OTF) 已更新為 Hudi 0.15.0、Iceberg 1.7.1 和 Delta Lake 3.3.0

  • 使用 Lake Formation 的 Spark 原生精細存取控制。

  • Amazon S3 存取授權支援

  • requirements.txt 支援安裝其他 Python 程式庫

  • Amazon DataZone 支援資料沿襲

  • Amazon S3 Table 儲存貯體支援

  • AWS Glue Data Catalog 多方言檢視支援

限制

以下為 AWS Glue 5.0 的限制:

  • 在 Glue 4.0 或以前版本中支援 AWS Lake Formation 許可的 Glue Dynamic Frame/GlueContext 型資料表層級存取控制在 Glue 5.0 中不受支援。在 Glue 5.0 中使用新的 Spark 原生精細存取控制 (FGAC)

如需有關移轉到 AWS Glue 5.0 版的詳細資訊,請參閱將 AWS Glue for Spark 任務遷移到 AWS Glue 5.0 版

AWS Glue 4.0 Spark 環境版本
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 在此 AWS Glue 版本中內建了許多最佳化和升級,例如:

  • 許多 Spark 功能從 Spark 3.1 升級至 Spark 3.3:

    • 與 pandas 配對時的數個功能改進。如需詳細資訊,請參閱 Spark 3.3 中的新功能

    • 在 Amazon EMR 上開發的其他最佳化功能。

    • 升級至 EMR 檔案系統 (EMRFS) 2.53。

  • 從 Log4j 1.x 遷移至 Log4j 2

  • 從 AWS Glue 3.0 開始更新了數個 Python 模組,例如 Boto 的升級版本。

  • 升級數個連接器,包括預設的 Amazon Redshift 連接器。請參閱 附錄 C:連接器升級

  • 升級數個 JDBC 驅動程式。請參閱 附錄 B:JDBC 驅動程式升級

  • 以新的 Amazon Redshift 連接器和 JDBC 驅動程式進行更新。

  • 原生支援開放式資料湖架構,包括 Apache Hudi、Delta Lake 和 Apache Iceberg。

  • 原生支援以 Amazon S3 為基礎的雲端隨機排序儲存外掛程式 (Apache Spark 外掛程式),以使用 Amazon S3 進行隨機排序和彈性儲存容量。

限制

以下為 AWS Glue 4.0 的限制:

  • AWS Glue 4.0 尚未提供 AWS Glue 機器學習和個人身分識別資訊 (PII) 轉換。

如需遷移到 AWS Glue 4.0 版的詳細資訊,請參閱將 AWS Glue for Spark 任務遷移到 AWS Glue 4.0 版

Ray 環境版本
  • Ray 2.4.0

    Python 3.9

N/A

使用 AWS Glue for Ray 建置並執行分散式 Python 應用程式。

  • 透過 Python 3.9 支援 Ray-2.4.0 資料分發 (ray[data])。如需有關此 Ray 發行版本的詳細資訊,請參閱 Ray GitHub 儲存庫中的 Ray-2.4.0

  • 支援將額外的 Python 程式庫安裝至 Ray2.4 執行期環境。如需更多詳細資訊,請參閱 Ray 任務的其他 Python 模組

  • 將 Ray 任務的日誌和指標與 Amazon CloudWatch 整合。如需詳細資訊,請參閱對日誌中的 AWS Glue for Ray 錯誤進行疑難排解使用指標監控 Ray 任務

  • 在每個任務執行頁面上彙總並視覺化 AWS Glue Studio 中 Ray 任務的指標。

  • 支援將檔案分發至叢集中的每個工作目錄、將物件從 Ray 物件存放區溢出至 Amazon S3,以及控制分配給 Ray 任務的工作節點數量下限。如需更多詳細資訊,請參閱 在 Ray 任務中使用任務參數

AWS Glue 4.0 中 Ray 任務的限制

  • Ray 的 AWS Glue 互動式工作階段在此發行版本中仍處於預覽版狀態。

  • 目前無法與 Amazon VPC 進行 AWS Glue for Ray 整合。若無公有路由,將無法存取 AWS VPC 中的資源。如需有關使用 AWS Glue 搭配 Amazon VPC 的詳細資訊,請參閱 配置 AWS Glue (AWS PrivateLink) 的介面 VPC 端點 (AWS PrivateLink)

  • AWS Glue for Ray 已在美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、亞太區域 (東京) 及歐洲 (愛爾蘭) 推出。

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

除了 Spark 引擎升級到 3.0 之外,這個 AWS Glue 版本還內建了一些最佳化和升級,例如:

  • 根據 Spark 3.0 建置 AWS Glue ETL 程式庫,這是 Spark 的一個重要版本。

  • AWS Glue 3.0 支援串流任務。

  • 包含針對效能和可靠性的新 AWS Glue Spark 執行時間最佳化:

    • 基於 Apache Arrow 讀取 CSV 資料的更快的記憶體直欄式處理。

    • 使用 CSV 資料進行向量化讀取的 SIMD 基礎執行。

    • Spark 升級還包括在 Amazon EMR 上開發的其他最佳化。

    • 將 EMRFS 從 2.38 升級至 2.46,為 Amazon S3 存取提供新功能和錯誤修正。

  • 升級了新 Spark 版本所需的幾個相依性。

  • 針對我們原生支援的資料來源升級 JDBC 驅動程式。

限制

以下為 AWS Glue 3.0 的限制:

  • AWS Glue 機器學習轉換尚未在 AWS Glue3.0 提供。

  • 某些自訂 Spark 連接器無法用於 AWS Glue 3.0,如果它們依賴於 Spark 2.4,並且與 Spark 3.1 沒有相容性。

AWS Glue 2.0 (2026 年 4 月 1 日生命週期結束)
  • Spark 2.4.3

  • Python 3.7

N/A

除了 AWS Glue 1.0 版提供的功能,AWS Glue 2.0 版也提供:

  • 已升級的基礎結構,可在 AWS Glue 中以縮短的啟動時間執行 Apache Spark ETL 任務。

  • 預設日誌記錄現在是即時的記錄,為驅動程式和執行程序以及輸出和錯誤提供單獨的串流。

  • 支援在任務層級指定其他 Python 模組或不同版本。

注意

由於基礎架構變化,AWS Glue 2.0 版在一些相依性和版本方面不同於 AWS Glue 1.0。請先驗證您的 AWS Glue 任務,然後再跨主要 AWS Glue 版本發行遷移。

AWS Glue 1.0 (2026 年 4 月 1 日生命週期結束)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

您可以在 AWS Glue ETL 任務 (使用 AWS Glue 1.0 版) 中維護 Parquet 和 ORC 格式的任務書籤。之前,您只能在 AWS Glue ETL 任務中將常見的 Amazon S3 來源格式加入書籤,例如 JSON、CSV、Apache Avro 和 XML。

為 ETL 輸入和輸出設定格式選項時,您可以指定使用 Apache Avro Reader/Writer 格式 1.8,以支援 Avro 邏輯類型的讀取和寫入 (使用 AWS Glue 1.0 版)。先前僅支援 1.7 版的 Avro Reader/Writer 格式。

DynamoDB 連線類型支援寫入器選項 (使用 AWS Glue 1.0 版)。

限制

以下為 AWS Glue 1.0 的限制:

  • AWS Glue 0.9 版和 1.0 版在亞太區域 (雅加達) (ap-southeast-3)、中東 (阿拉伯聯合大公國) (me-central-1) 或今後推出服務的其他新區域中不可使用。

AWS Glue 0.9 (2026 年 4 月 1 日生命週期結束)
  • Spark 2.2.1

  • Python 2.7

N/A

建立時未指定 AWS Glue 版本的任務,預設為 AWS Glue 0.9。

限制

以下為 AWS Glue 0.9 的限制:

  • AWS Glue 0.9 版和 1.0 版在亞太區域 (雅加達) (ap-southeast-3)、中東 (阿拉伯聯合大公國) (me-central-1) 或今後推出服務的其他新區域中不可使用。

注意

下列 Glue 版本支援這些 PythonShell 版本:

  • Glue 1.0 版支援 PythonShell 3.6 版。

  • Glue 3.0 版支援 PythonShell 3.9 版。

此外,僅 Glue 1.0 版和 0.9 版支援開發端點。