AWS Glue ワーカータイプ
概要
AWS Glue では、小規模なストリーミングジョブから大規模なメモリ集約型のデータ処理タスクにおよぶ、さまざまなワークロード要件に対応するための複数のワーカータイプが提供されています。このセクションでは、利用可能なすべてのワーカータイプ、それらの仕様、および使用上の推奨事項に関する包括的な情報を提供します。
ワーカータイプカテゴリ
AWS Glue には、2 つの主なワーカータイプカテゴリがあります。
-
G ワーカータイプ: 標準 ETL ワークロード用に最適化された汎用コンピューティングワーカー
-
R ワーカータイプ: メモリ集約型の Spark アプリケーション用に設計されたメモリ最適化ワーカー
データ処理ユニット (DPU)
AWS Glue ワーカーで利用可能なリソースは DPU 単位で測定されます。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。
メモリ最適化 DPU (M-DPU): R タイプのワーカーは M-DPU を使用します。M-DPU では、特定のサイズに対するメモリ割り当てが標準 DPU の 2 倍になります。つまり、標準 DPU が 16 GB のメモリを提供する一方で、R タイプワーカーの M-DPU はメモリ集約型 Spark アプリケーション用に最適化された 32 GB のメモリを提供します。
利用可能なワーカータイプ
G.1X - 標準ワーカー
DPU: 1 DPU (4 vCPU、16 GB メモリ)
ストレージ: 94 GB ディスク (空き容量約 44 GB)
ユースケース: データ変換、結合、クエリ - ほとんどのジョブに対して優れたスケーラビリティとコスト効率性を実現
G.2X - 標準ワーカー
DPU: 2 DPU (8 vCPU、32 GB メモリ)
ストレージ: 138 GB ディスク (空き容量約 78 GB)
ユースケース: データ変換、結合、クエリ - ほとんどのジョブに対して優れたスケーラビリティとコスト効率性を実現
G.4X - 大規模ワーカー
DPU: 4 DPU (16 vCPU、64 GB メモリ)
ストレージ: 256 GB ディスク (空き容量約 230 GB)
ユースケース: 要求の厳しい変換、集約、結合、クエリ
G.8X - 超大規模ワーカー
DPU: 8 DPU (32 vCPU、128 GB メモリ)
ストレージ: 512 GB ディスク (空き容量約 485 GB)
ユースケース: 最も要求の厳しい変換、集約、結合、クエリ
G.12X - 超大規模ワーカー*
DPU: 12 DPU (48 vCPU、192 GB メモリ)
ストレージ: 768 GB ディスク (空き容量約 741 GB)
ユースケース: 大量のコンピューティングキャパシティを必要とする極めて大規模なリソース集約型ワークロード
G.16X - 最大ワーカー*
DPU: 16 DPU (64 vCPU、256 GB メモリ)
ストレージ: 1024 GB ディスク (空き容量約 996 GB)
ユースケース: 最大限のコンピューティングキャパシティを必要とする最も大規模で最もリソース集約型のワークロード
R.1X - 小規模メモリ最適化*
DPU: 1 M-DPU (4 vCPU、32 GB メモリ)
ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴うメモリ集約型ワークロード
R.2X - 中規模メモリ最適化*
DPU: 2 M-DPU (8 vCPU、64 GB メモリ)
ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴うメモリ集約型ワークロード
R.4X - 大規模メモリ最適化*
DPU: 4 M-DPU (16 vCPU、128 GB メモリ)
ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴う大規模メモリ集約型ワークロード
R.8X - 超大規模メモリ最適化*
DPU: 8 M-DPU (32 vCPU、256 GB メモリ)
ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴う超大規模メモリ集約型ワークロード
* これらのワーカーでは、高い起動レイテンシーが発生する可能性があります。この問題を解決するには、以下の手順を実行します。
数分間待ってからジョブを再度送信する。
ワーカー数を減らした新しいジョブを送信する。
別のワーカータイプまたはサイズを使用して新しいジョブを送信する。
ワーカータイプ仕様表
ワーカータイプ | ノードあたりの DPU | vCPU | メモリ (GB) | ディスク (GB) | 空きディスク容量 (GB) | ノードあたりの Spark エグゼキューター |
---|---|---|---|---|---|---|
G.1X | 1 | 4 | 16 | 94 | 44 | 1 |
G.2X | 2 | 8 | 32 | 138 | 78 | 1 |
G.4X | 4 | 16 | 64 | 256 | 230 | 1 |
G.8X | 8 | 32 | 128 | 512 | 485 | 1 |
G.12X | 12 | 48 | 192 | 768 | 741 | 1 |
G.16X | 16 | 64 | 256 | 1024 | 996 | 1 |
注意: R ワーカータイプは、メモリ集約型ワークロード用に最適化された仕様のメモリ最適化構成になっています。
重要な考慮事項
起動レイテンシー
重要
G.12X と G.16X のワーカータイプ、およびすべての R ワーカータイプ (R.1X~R.8X) では、高い起動レイテンシーが発生する可能性があります。この問題を解決するには、以下の手順を実行します。
数分間待ってからジョブを再度送信する。
ワーカー数を減らした新しいジョブを送信する。
別のワーカータイプとサイズを使用して新しいジョブを送信する。
適切なワーカータイプの選択
標準 ETL ワークロードの場合
G.1X または G.2X: 一般的なデータ変換、結合、クエリ向けのコスト効率性が最も高いワーカータイプ
G.4X または G.8X: より大きなデータセットを使用する要求の厳しいワークロード向け
大規模なワークロードの場合
G.12X: 大量のコンピューティングリソースを必要とする極めて大規模なデータセット向け
G.16X: 要求が最も厳しいワークロードに最大のコンピューティングキャパシティを提供
メモリ集約型ワークロードの場合
R.1X または R.2X: 小規模から中規模のメモリ集約型ジョブ向け
R.4X または R.8X: OOM エラーが頻繁に発生する大規模なメモリ集約型ワークロード向け
コスト最適化に関する考慮事項
標準 G ワーカー: コンピューティング、メモリ、ネットワークリソース間のバランスが取れたワーカーで、多種多様なワークロードに低コストで利用可能
R ワーカー: メモリ集約型のタスクに特化しており、メモリ内で大規模なデータセットを処理するワークロードに高速パフォーマンスを提供
ベストプラクティス
ワーカーの選択ガイドライン
ほとんどのワークロードについては標準ワーカー (G.1X、G.2X)から開始する
メモリ不足エラーが頻繁に発生する場合や、キャッシュ、シャッフル、集約などのメモリ集約型操作を行うワークロードの場合は R ワーカーを使用する
最大のリソースを必要とするコンピューティング集約型ワークロードには G.12X/G.16X を検討する
時間的な制約があるワークフローで新しいワーカータイプを使用するときはキャパシティの制約を考慮する
パフォーマンスの最適化
CloudWatch メトリクスを監視してリソースの使用状況を把握する
データサイズと複雑性に基づいて適切なワーカー数を使用する
ワーカーの効率を最適化するためのデータパーティショニング戦略を検討する