AWS Glue ワーカータイプ - AWS Glue

AWS Glue ワーカータイプ

概要

AWS Glue では、小規模なストリーミングジョブから大規模なメモリ集約型のデータ処理タスクにおよぶ、さまざまなワークロード要件に対応するための複数のワーカータイプが提供されています。このセクションでは、利用可能なすべてのワーカータイプ、それらの仕様、および使用上の推奨事項に関する包括的な情報を提供します。

ワーカータイプカテゴリ

AWS Glue には、2 つの主なワーカータイプカテゴリがあります。

  • G ワーカータイプ: 標準 ETL ワークロード用に最適化された汎用コンピューティングワーカー

  • R ワーカータイプ: メモリ集約型の Spark アプリケーション用に設計されたメモリ最適化ワーカー

データ処理ユニット (DPU)

AWS Glue ワーカーで利用可能なリソースは DPU 単位で測定されます。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。

メモリ最適化 DPU (M-DPU): R タイプのワーカーは M-DPU を使用します。M-DPU では、特定のサイズに対するメモリ割り当てが標準 DPU の 2 倍になります。つまり、標準 DPU が 16 GB のメモリを提供する一方で、R タイプワーカーの M-DPU はメモリ集約型 Spark アプリケーション用に最適化された 32 GB のメモリを提供します。

利用可能なワーカータイプ

G.1X - 標準ワーカー

  • DPU: 1 DPU (4 vCPU、16 GB メモリ)

  • ストレージ: 94 GB ディスク (空き容量約 44 GB)

  • ユースケース: データ変換、結合、クエリ - ほとんどのジョブに対して優れたスケーラビリティとコスト効率性を実現

G.2X - 標準ワーカー

  • DPU: 2 DPU (8 vCPU、32 GB メモリ)

  • ストレージ: 138 GB ディスク (空き容量約 78 GB)

  • ユースケース: データ変換、結合、クエリ - ほとんどのジョブに対して優れたスケーラビリティとコスト効率性を実現

G.4X - 大規模ワーカー

  • DPU: 4 DPU (16 vCPU、64 GB メモリ)

  • ストレージ: 256 GB ディスク (空き容量約 230 GB)

  • ユースケース: 要求の厳しい変換、集約、結合、クエリ

G.8X - 超大規模ワーカー

  • DPU: 8 DPU (32 vCPU、128 GB メモリ)

  • ストレージ: 512 GB ディスク (空き容量約 485 GB)

  • ユースケース: 最も要求の厳しい変換、集約、結合、クエリ

G.12X - 超大規模ワーカー*

  • DPU: 12 DPU (48 vCPU、192 GB メモリ)

  • ストレージ: 768 GB ディスク (空き容量約 741 GB)

  • ユースケース: 大量のコンピューティングキャパシティを必要とする極めて大規模なリソース集約型ワークロード

G.16X - 最大ワーカー*

  • DPU: 16 DPU (64 vCPU、256 GB メモリ)

  • ストレージ: 1024 GB ディスク (空き容量約 996 GB)

  • ユースケース: 最大限のコンピューティングキャパシティを必要とする最も大規模で最もリソース集約型のワークロード

R.1X - 小規模メモリ最適化*

  • DPU: 1 M-DPU (4 vCPU、32 GB メモリ)

  • ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴うメモリ集約型ワークロード

R.2X - 中規模メモリ最適化*

  • DPU: 2 M-DPU (8 vCPU、64 GB メモリ)

  • ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴うメモリ集約型ワークロード

R.4X - 大規模メモリ最適化*

  • DPU: 4 M-DPU (16 vCPU、128 GB メモリ)

  • ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴う大規模メモリ集約型ワークロード

R.8X - 超大規模メモリ最適化*

  • DPU: 8 M-DPU (32 vCPU、256 GB メモリ)

  • ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴う超大規模メモリ集約型ワークロード

* これらのワーカーでは、高い起動レイテンシーが発生する可能性があります。この問題を解決するには、以下の手順を実行します。

  • 数分間待ってからジョブを再度送信する。

  • ワーカー数を減らした新しいジョブを送信する。

  • 別のワーカータイプまたはサイズを使用して新しいジョブを送信する。

ワーカータイプ仕様表

ワーカータイプの仕様
ワーカータイプ ノードあたりの DPU vCPU メモリ (GB) ディスク (GB) 空きディスク容量 (GB) ノードあたりの Spark エグゼキューター
G.1X 1 4 16 94 44 1
G.2X 2 8 32 138 78 1
G.4X 4 16 64 256 230 1
G.8X 8 32 128 512 485 1
G.12X 12 48 192 768 741 1
G.16X 16 64 256 1024 996 1

注意: R ワーカータイプは、メモリ集約型ワークロード用に最適化された仕様のメモリ最適化構成になっています。

重要な考慮事項

起動レイテンシー

重要

G.12X と G.16X のワーカータイプ、およびすべての R ワーカータイプ (R.1X~R.8X) では、高い起動レイテンシーが発生する可能性があります。この問題を解決するには、以下の手順を実行します。

  • 数分間待ってからジョブを再度送信する。

  • ワーカー数を減らした新しいジョブを送信する。

  • 別のワーカータイプとサイズを使用して新しいジョブを送信する。

適切なワーカータイプの選択

標準 ETL ワークロードの場合

  • G.1X または G.2X: 一般的なデータ変換、結合、クエリ向けのコスト効率性が最も高いワーカータイプ

  • G.4X または G.8X: より大きなデータセットを使用する要求の厳しいワークロード向け

大規模なワークロードの場合

  • G.12X: 大量のコンピューティングリソースを必要とする極めて大規模なデータセット向け

  • G.16X: 要求が最も厳しいワークロードに最大のコンピューティングキャパシティを提供

メモリ集約型ワークロードの場合

  • R.1X または R.2X: 小規模から中規模のメモリ集約型ジョブ向け

  • R.4X または R.8X: OOM エラーが頻繁に発生する大規模なメモリ集約型ワークロード向け

コスト最適化に関する考慮事項

  • 標準 G ワーカー: コンピューティング、メモリ、ネットワークリソース間のバランスが取れたワーカーで、多種多様なワークロードに低コストで利用可能

  • R ワーカー: メモリ集約型のタスクに特化しており、メモリ内で大規模なデータセットを処理するワークロードに高速パフォーマンスを提供

ベストプラクティス

ワーカーの選択ガイドライン

  1. ほとんどのワークロードについては標準ワーカー (G.1X、G.2X)から開始する

  2. メモリ不足エラーが頻繁に発生する場合や、キャッシュ、シャッフル、集約などのメモリ集約型操作を行うワークロードの場合は R ワーカーを使用する

  3. 最大のリソースを必要とするコンピューティング集約型ワークロードには G.12X/G.16X を検討する

  4. 時間的な制約があるワークフローで新しいワーカータイプを使用するときはキャパシティの制約を考慮する

パフォーマンスの最適化

  • CloudWatch メトリクスを監視してリソースの使用状況を把握する

  • データサイズと複雑性に基づいて適切なワーカー数を使用する

  • ワーカーの効率を最適化するためのデータパーティショニング戦略を検討する