概要利用可能なワーカータイプワーカータイプ仕様表重要な考慮事項適切なワーカータイプの選択コスト最適化に関する考慮事項ベストプラクティス

AWS Glue ワーカータイプ

概要

AWS Glue では、小規模なストリーミングジョブから大規模なメモリ集約型のデータ処理タスクにおよぶ、さまざまなワークロード要件に対応するための複数のワーカータイプが提供されています。このセクションでは、利用可能なすべてのワーカータイプ、それらの仕様、および使用上の推奨事項に関する包括的な情報を提供します。

ワーカータイプカテゴリ

AWS Glue には、2 つの主なワーカータイプカテゴリがあります。

G ワーカータイプ: 標準 ETL ワークロード用に最適化された汎用コンピューティングワーカー
R ワーカータイプ: メモリ集約型の Spark アプリケーション用に設計されたメモリ最適化ワーカー

データ処理ユニット (DPU)

AWS Glue ワーカーで利用可能なリソースは DPU 単位で測定されます。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。

メモリ最適化 DPU (M-DPU): R タイプのワーカーは M-DPU を使用します。M-DPU では、特定のサイズに対するメモリ割り当てが標準 DPU の 2 倍になります。つまり、標準 DPU が 16 GB のメモリを提供する一方で、R タイプワーカーの M-DPU はメモリ集約型 Spark アプリケーション用に最適化された 32 GB のメモリを提供します。

利用可能なワーカータイプ

G.1X - 標準ワーカー

DPU: 1 DPU (4 vCPU、16 GB メモリ)
ストレージ: 94 GB ディスク (空き容量約 44 GB)
ユースケース: データ変換、結合、クエリ - ほとんどのジョブに対して優れたスケーラビリティとコスト効率性を実現

G.2X - 標準ワーカー

DPU: 2 DPU (8 vCPU、32 GB メモリ)
ストレージ: 138 GB ディスク (空き容量約 78 GB)
ユースケース: データ変換、結合、クエリ - ほとんどのジョブに対して優れたスケーラビリティとコスト効率性を実現

G.4X - 大規模ワーカー

DPU: 4 DPU (16 vCPU、64 GB メモリ)
ストレージ: 256 GB ディスク (空き容量約 230 GB)
ユースケース: 要求の厳しい変換、集約、結合、クエリ

G.8X - 超大規模ワーカー

DPU: 8 DPU (32 vCPU、128 GB メモリ)
ストレージ: 512 GB ディスク (空き容量約 485 GB)
ユースケース: 最も要求の厳しい変換、集約、結合、クエリ

G.12X - 超大規模ワーカー*

DPU: 12 DPU (48 vCPU、192 GB メモリ)
ストレージ: 768 GB ディスク (空き容量約 741 GB)
ユースケース: 大量のコンピューティングキャパシティを必要とする極めて大規模なリソース集約型ワークロード

G.16X - 最大ワーカー*

DPU: 16 DPU (64 vCPU、256 GB メモリ)
ストレージ: 1024 GB ディスク (空き容量約 996 GB)
ユースケース: 最大限のコンピューティングキャパシティを必要とする最も大規模で最もリソース集約型のワークロード

R.1X - 小規模メモリ最適化*

DPU: 1 M-DPU (4 vCPU、32 GB メモリ)
ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴うメモリ集約型ワークロード

R.2X - 中規模メモリ最適化*

DPU: 2 M-DPU (8 vCPU、64 GB メモリ)
ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴うメモリ集約型ワークロード

R.4X - 大規模メモリ最適化*

DPU: 4 M-DPU (16 vCPU、128 GB メモリ)
ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴う大規模メモリ集約型ワークロード

R.8X - 超大規模メモリ最適化*

DPU: 8 M-DPU (32 vCPU、256 GB メモリ)
ユースケース: メモリ不足エラーが頻繁に発生する、または高いメモリ対CPU比要件を伴う超大規模メモリ集約型ワークロード

* これらのワーカーでは、高い起動レイテンシーが発生する可能性があります。この問題を解決するには、以下の手順を実行します。

数分間待ってからジョブを再度送信する。
ワーカー数を減らした新しいジョブを送信する。
別のワーカータイプまたはサイズを使用して新しいジョブを送信する。

ワーカータイプ仕様表

ワーカータイプの仕様
ワーカータイプ	ノードあたりの DPU	vCPU	メモリ (GB)	ディスク (GB)	空きディスク容量 (GB)	ノードあたりの Spark エグゼキューター
G.1X	1	4	16	94	44	1
G.2X	2	8	32	138	78	1
G.4X	4	16	64	256	230	1
G.8X	8	32	128	512	485	1
G.12X	12	48	192	768	741	1
G.16X	16	64	256	1024	996	1

注意: R ワーカータイプは、メモリ集約型ワークロード用に最適化された仕様のメモリ最適化構成になっています。

重要な考慮事項

起動レイテンシー

重要

G.12X と G.16X のワーカータイプ、およびすべての R ワーカータイプ (R.1X～R.8X) では、高い起動レイテンシーが発生する可能性があります。この問題を解決するには、以下の手順を実行します。

数分間待ってからジョブを再度送信する。
ワーカー数を減らした新しいジョブを送信する。
別のワーカータイプとサイズを使用して新しいジョブを送信する。

適切なワーカータイプの選択

標準 ETL ワークロードの場合

G.1X または G.2X: 一般的なデータ変換、結合、クエリ向けのコスト効率性が最も高いワーカータイプ
G.4X または G.8X: より大きなデータセットを使用する要求の厳しいワークロード向け

大規模なワークロードの場合

G.12X: 大量のコンピューティングリソースを必要とする極めて大規模なデータセット向け
G.16X: 要求が最も厳しいワークロードに最大のコンピューティングキャパシティを提供

メモリ集約型ワークロードの場合

R.1X または R.2X: 小規模から中規模のメモリ集約型ジョブ向け
R.4X または R.8X: OOM エラーが頻繁に発生する大規模なメモリ集約型ワークロード向け

コスト最適化に関する考慮事項

標準 G ワーカー: コンピューティング、メモリ、ネットワークリソース間のバランスが取れたワーカーで、多種多様なワークロードに低コストで利用可能
R ワーカー: メモリ集約型のタスクに特化しており、メモリ内で大規模なデータセットを処理するワークロードに高速パフォーマンスを提供

ベストプラクティス

ワーカーの選択ガイドライン

ほとんどのワークロードについては標準ワーカー (G.1X、G.2X)から開始する
メモリ不足エラーが頻繁に発生する場合や、キャッシュ、シャッフル、集約などのメモリ集約型操作を行うワークロードの場合は R ワーカーを使用する
最大のリソースを必要とするコンピューティング集約型ワークロードには G.12X/G.16X を検討する
時間的な制約があるワークフローで新しいワーカータイプを使用するときはキャパシティの制約を考慮する

パフォーマンスの最適化

CloudWatch メトリクスを監視してリソースの使用状況を把握する
データサイズと複雑性に基づいて適切なワーカー数を使用する
ワーカーの効率を最適化するためのデータパーティショニング戦略を検討する

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

AI を使用した Spark ジョブのトラブルシューティング

ストリーミング ETLジョブ