AWS Glue 工作者類型 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 工作者類型

概觀

AWS Glue 提供多種工作者類型,以因應不同的工作負載需求,從小型串流任務到大規模的記憶體密集型資料處理任務。本節提供有關所有可用工作者類型、其規格和用量建議的完整資訊。

工作者類型類別

AWS Glue 提供兩種主要類別的工作者類型:

  • G 工作者類型:針對標準 ETL 工作負載最佳化的一般用途運算工作者

  • R 工作者類型:專為記憶體密集型 Spark 應用程式設計的記憶體最佳化工作者

資料處理單位 DPUs)

AWS Glue 工作者可用的資源是以 DPUs測量。DPU 是相對的處理能力,包含 4 個 vCPU 的運算容量和 16 GB 的記憶體。

記憶體最佳化 DPUs (M-DPUs):R 類型工作者使用 M-DPUs,相較於標準 DPUs,可為指定大小提供兩倍的記憶體配置。這表示雖然標準 DPU 提供 16 GB 的記憶體,但 R 類型工作者中的 M-DPU 提供針對記憶體密集型 Spark 應用程式最佳化的 32GB 記憶體。

可用的工作者類型

G.1X - 標準工作者

  • DPU:1 個 DPU (4 vCPUs,16 GB 記憶體)

  • 儲存:94GB 磁碟 (大約 44GB 可用)

  • 使用案例:資料轉換、聯結和查詢 - 對大多數任務可擴展且經濟實惠

G.2X - 標準工作者

  • DPU:2 個 DPU (8 vCPUs、32 GB 記憶體)

  • 儲存:138GB 磁碟 (大約 78GB 可用)

  • 使用案例:資料轉換、聯結和查詢 - 對大多數任務可擴展且符合成本效益

G.4X - 大型工作者

  • DPU:4 個 DPU (16 vCPUs、64 GB 記憶體)

  • 儲存:256GB 磁碟 (大約 230GB 可用)

  • 使用案例:要求轉換、彙總、聯結和查詢

G.8X - 超大型工作者

  • DPU:8 個 DPU (32 vCPUs、128 GB 記憶體)

  • 儲存:512GB 磁碟 (大約 485GB 可用)

  • 使用案例:最嚴苛的轉換、彙總、聯結和查詢

G.12X - 超大型工作者*

  • DPU:12 個 DPU (48 vCPUs,192 GB 記憶體)

  • 儲存:768GB 磁碟 (大約 741GB 可用)

  • 使用案例:非常大型且資源密集的工作負載,需要大量的運算容量

G.16X - 工作者上限*

  • DPU:16 個 DPU (64 vCPUs,256 GB 記憶體)

  • 儲存:1024GB 磁碟 (大約 996GB 可用)

  • 使用案例:需要最大運算容量的最大和資源密集型工作負載

R.1X - 記憶體最佳化小型*

  • DPU:1 個 M-DPU (4 vCPUs,32 GB 記憶體)

  • 使用案例:記憶體密集型工作負載,具有頻繁out-of-memory錯誤或高memory-to-CPU的比率需求

R.2X - 記憶體最佳化媒體*

  • DPU:2 個 M-DPU (8 vCPUs,64 GB 記憶體)

  • 使用案例:記憶體密集型工作負載,具有頻繁out-of-memory錯誤或高memory-to-CPU的比率需求

R.4X - 記憶體最佳化大型*

  • DPU:4 個 M-DPU (16 個 vCPUs,128 GB 記憶體)

  • 使用案例:具有頻繁out-of-memory錯誤或高記憶體memory-to-CPU比率需求的大型記憶體密集型工作負載

R.8X - 記憶體最佳化的超大型*

  • DPU:8 M-DPU (32 個 vCPUs、256 GB 記憶體)

  • 使用案例:具有頻繁out-of-memory錯誤或高記憶體memory-to-CPU比率需求的大量記憶體密集型工作負載

* 使用這些工作者時,您可能會遇到較高的啟動延遲。若要解決問題,請嘗試下列方法:

  • 等待幾分鐘,然後再次提交您的任務。

  • 提交減少工作者數量的新任務。

  • 使用不同的工作者類型或大小提交新任務。

工作者類型規格表

工作者類型規格
工作者類型 每個節點的 DPU vCPU 記憶體 (GB) 磁碟 (GB) 可用磁碟空間 (GB) 每個節點的 Spark 執行器
G.1X 1 4 16 94 44 1
G.2X 2 8 32 138 78 1
G.4X 4 16 64 256 230 1
G.8X 8 32 128 512 485 1
G.12X 12 48 192 768 741 1
G.16X 16 64 256 1024 996 1

注意:R 工作者類型具有記憶體最佳化組態,具有針對記憶體密集型工作負載最佳化的規格。

重要考量

啟動延遲

重要

G.12X 和 G.16X 工作者類型以及所有 R 工作者類型 (R.1X 到 R.8X) 可能會遇到較高的啟動延遲。若要解決問題,請嘗試下列方法:

  • 等待幾分鐘,然後再次提交您的任務。

  • 提交減少工作者數量的新任務。

  • 使用不同的工作者類型和大小提交新任務。

選擇正確的工作者類型

對於標準 ETL 工作負載

  • G.1X 或 G.2X:對於典型的資料轉換、聯結和查詢最具成本效益

  • G.4X 或 G.8X:適用於具有較大資料集的更嚴苛工作負載

適用於大規模工作負載

  • G.12X:需要大量運算資源的超大型資料集

  • G.16X:最嚴苛工作負載的最大運算容量

對於記憶體密集型工作負載

  • R.1X 或 R.2X:中小型記憶體密集型任務

  • R.4X 或 R.8X:經常發生 OOM 錯誤的大型記憶體密集型工作負載

成本最佳化考量事項

  • 標準 G 工作者:提供運算、記憶體和聯網資源的平衡,可用於成本較低的各種工作負載

  • R 工作者:專門處理記憶體中處理大型資料集的工作負載,具有快速效能的記憶體密集型任務

最佳實務

工作者選擇準則

  1. 從適用於大多數工作負載的標準工作者 (G.1X、G.2X) 開始

  2. 透過快取、隨機播放和彙總等記憶體密集型操作,在經常發生記憶體不足錯誤或工作負載時使用 R 工作者 out-of-memory

  3. 對於需要最大資源的運算密集型工作負載,請考慮 G.12X/G.16X

  4. 在時間敏感的工作流程中使用新的工作者類型時,考慮容量限制

效能最佳化

  • 監控 CloudWatch 指標以了解資源使用率

  • 根據資料大小和複雜性使用適當的工作者計數

  • 考慮資料分割策略,以最佳化工作者效率