Amazon EMR Serverless でのサーバーレスストレージの使用

Amazon EMR リリース 7.12 以降では、Apache Spark ジョブを実行するときにサーバーレスストレージを使用して、ローカルディスクのプロビジョニングを排除し、データ処理コストを削減し、ディスク容量の制約によるジョブの失敗を防ぎます。サーバーレスストレージは、容量設定を必要とせずにジョブのシャッフル、ディスクスピル、ディスクキャッシュ操作を自動的に処理し、中間データを無償で保存します。Amazon EMR Serverless は、ワークロードの需要に基づいて自動的にスケールするフルマネージドサーバーレスストレージに中間データを保存し、Spark がアイドル状態のときにすぐにコンピューティングワーカーを解放して、コンピューティングコストを削減できるようにします。

主な利点

EMR Serverless 用のサーバーレスストレージには、次の利点があります。

ゼロ設定ストレージ – サーバーレスストレージを使用すると、アプリケーションまたはジョブごとにローカルディスクタイプとサイズを設定する必要がなくなります。EMR Serverless は、キャパシティプランニングなしで中間データオペレーションを自動的に管理します。
自動スケーリングによるジョブ障害の防止 – ストレージ容量はワークロードの需要に基づいて自動的にスケーリングされ、ジョブ障害によるディスク容量不足を防ぎます。
データ処理コストの削減 – サーバーレスストレージは、2 つのメカニズムを通じて処理コストを削減します。まず、中間データストレージは無料で提供されます。コンピューティングリソースとメモリリソースに対してのみ料金が発生します。次に、Spark の動的リソース割り当てにより、Spark はワーカーを保持してローカルディスクに中間データを保持するのではなく、アイドル状態のときにすぐにワーカーを解放できます。これにより、Spark ステージあたりのスケールアウトとスケールインが高速化され、後のステージで必要なワーカーが初期ステージよりも少ないジョブのコンピューティングコストを削減できます。
ジョブレベルの分離による暗号化ストレージ – すべての中間データは、転送中および保管中に厳密なジョブレベルの分離で暗号化されます。
きめ細かなアクセスコントロールのサポート – サーバーレスストレージは、 AWS Lake Formation 統合によるきめ細かなアクセスコントロールをサポートします。

開始方法

Spark ワークフローで EMR Serverless 用のサーバーレスストレージを使用するには、次のステップを参照してください。

EMR Serverless アプリケーションを作成する

spark-defaults 分類で spark プロパティspark.aws.serverlessStorage.enabledを true に設定して、サーバーレスストレージを有効にした EMR Serverless リリース 7.12 (またはそれ以降) アプリケーションを作成します。


aws emr-serverless create-application \
  --type "SPARK" \
  --name my-application \
  --release-label emr-7.12.0 \
  --runtime-configuration '[{
      "classification": "spark-defaults",
        "properties": {
          "spark.aws.serverlessStorage.enabled": "true"
        }
    }]' \
  --region <AWS_REGION>

Spark ジョブを開始する

アプリケーションでジョブ実行を開始します。EMR Serverless のサーバーレスストレージは、ジョブのシャッフルなどの中間データオペレーションを自動的に処理します。
```
aws emr-serverless start-job-run \
  --application-id <application-id> \
  --execution-role-arn <job-role-arn> \
  --job-driver '{
    "sparkSubmit": {
      "entryPoint": "s3://<bucket>/script.py",
      "sparkSubmitParameters": "--conf spark.executor.cores=4 
        --conf spark.executor.memory=20g 
        --conf spark.driver.cores=4 
        --conf spark.driver.memory=8g 
        --conf spark.executor.instances=10"
    }
  }'
```
アプリケーションレベルで有効になっていない場合でも、ジョブレベルで EMR Serverless のサーバーレスストレージを有効にすることもできます。これにより、サーバーレスストレージで有効になっているワーカーノードが起動され、ジョブが処理されます。同じ Spark プロパティspark.aws.serverlessStorage.enabledを false に設定することで、特定のジョブのサーバーレスストレージを無効にすることもできます。
```
# Turn on serverless storage for EMR serverless for a specific job
aws emr-serverless start-job-run \
    --application-id <application-id> \
    --execution-role-arn <job-role-arn> \
    --job-driver '{
"sparkSubmit": {
"entryPoint": "/usr/lib/spark/examples/jars/spark-examples.jar",
            "entryPointArguments": ["1"],
            "sparkSubmitParameters": "--class org.apache.spark.examples.SparkPi
            --conf spark.aws.serverlessStorage.enabled": "true"
        }
    }'
```
注記
従来のローカルディスクプロビジョニングを引き続き使用するには、spark.aws.serverlessStorage.enabled設定を省略するか、false に設定します。

考慮事項と制限事項

リリースバージョン – サーバーレスストレージは Amazon EMR リリース 7.12 以降でサポートされています。
データボリュームの制限 – 各ジョブは、ジョブの実行ごとに合計 200 GB の中間データを読み書きできます。この制限を超えるジョブは失敗し、サーバーレスストレージの制限に達したことを示すエラーメッセージが表示されます。
ジョブ実行タイムアウト – サーバーレスストレージは、最大 24 時間の実行タイムアウトのジョブをサポートします。実行タイムアウトを長くするように設定されたジョブは失敗し、エラーメッセージが表示されます。
事前初期化されたキャパシティ – 事前初期化されたキャパシティワーカーはサーバーレスストレージをサポートしていません。事前初期化された容量を設定すると、ジョブレベルでサーバーレスストレージを明示的に無効にするジョブでのみ使用されます。サーバーレスストレージが有効になっているジョブは、アプリケーションレベルの設定に関係なく、常に新しいワーカーをオンデマンドでプロビジョニングし、事前に初期化された容量を使用しません。
ワークロードタイプ – サーバーレスストレージは、ストリーミングジョブとインタラクティブジョブではサポートされていません。
ワーカー設定 – サーバーレスストレージは、1 つまたは 2 つの vCPUs を持つワーカーではサポートされていません。

サポートされる AWS リージョン

EMR Serverless は、次のリージョンでサーバーレスストレージをサポートしています。

米国東部 (バージニア北部)
米国東部 (オハイオ)
米国西部 (北カリフォルニア)
米国西部 (オレゴン)
アフリカ (ケープタウン)
アジアパシフィック (香港)
アジアパシフィック (ジャカルタ)
アジアパシフィック (メルボルン)
アジアパシフィック (ムンバイ)
アジアパシフィック (大阪)
アジアパシフィック (ソウル)
アジアパシフィック (シンガポール)
アジアパシフィック (シドニー)
アジアパシフィック (東京)
カナダ (中部)
カナダ西部 (カルガリー)
欧州 (フランクフルト)
欧州 (アイルランド)
欧州 (ロンドン)
欧州 (ミラノ)
欧州 (パリ)
欧州 (スペイン)
欧州 (ストックホルム)
欧州 (チューリッヒ)
南米 (サンパウロ)

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

シャッフル最適化ディスクの使用

継続的にストリーミングされたデータを処理するためのストリーミングジョブ

Amazon EMR Serverless でのサーバーレスストレージの使用

主な利点

開始方法

注記

考慮事項と制限事項

サポートされる AWS リージョン