EMR Studio コンソールからのジョブの実行

EMR Serverless アプリケーションにジョブ実行を送信し、EMR Studio コンソールからジョブアクセスできます。EMR Studio コンソールで EMR Serverless アプリケーションを作成または移動するには、「コンソールからの開始方法」の手順に従ってください。

ジョブを送信する

[ジョブの送信] ページで、次のように EMR Serverless アプリケーションにジョブを送信します。

Spark

[名前] フィールドにジョブ実行の名前を入力します。
[ランタイムロール] フィールドに、EMR Serverless アプリケーションがジョブ実行のために引き受けることができる IAM ロールの名前を入力します。ランタイムロールの詳細については、「Amazon EMR Serverless のジョブランタイムロール」を参照してください。
[スクリプトの場所] フィールドに、実行するスクリプトまたは JAR の Amazon S3 の場所を入力します。Spark ジョブの場合、スクリプトは Python (.py) ファイルまたは JAR (.jar) ファイルのいずれかになります。
スクリプトの場所が JAR ファイルの場合は、ジョブのエントリポイントであるクラス名を [メインクラス] フィールドに入力します。
(オプション) 残りのフィールドの値を入力します。
- スクリプトの引数 — メイン JAR または Python スクリプトに渡す引数を入力します。コードはこれらのパラメータを読み取ります。配列の各引数は、カンマで区切ります。
- Spark のプロパティ — Spark プロパティセクションを展開し、このフィールドに Spark 設定パラメータを入力します。
  
  注記
  Spark ドライバーとエグゼキュターのサイズを指定する場合は、メモリのオーバーヘッドを考慮します。プロパティ spark.driver.memoryOverhead と spark.executor.memoryOverhead にメモリオーバーヘッド値を指定します。メモリオーバーヘッドのデフォルト値はコンテナメモリの 10% で、最小 384 MB です。エグゼキュターメモリとメモリオーバーヘッドを合わせても、ワーカーメモリを超えることはできません。例えば、30 GB ワーカーの spark.executor.memory の最大値は 27 GB である必要があります。
- ジョブ設定 — このフィールドにジョブ設定を指定します。アプリケーションのデフォルトの設定を上書きするために、ジョブ設定を使用できます。次の例は、エグゼキュターやドライバーメモリなどの Spark のデフォルト設定を上書きする方法を示しています。
```
{
    "applicationConfiguration": [
        {
            "classification": "spark-defaults",
            "configurations": [],
            "properties": {
                "spark.executor.memory": "8G",
                "spark.driver.memory": "6G",
                "spark.driver.cores": "2",
                "spark.executor.cores": "4"
            }
        }
    ]
}
```
- 追加設定 — AWS Glue データカタログをメタストアとしてアクティブまたは非アクティブにして、アプリケーションログ設定を変更します。メタストア設定の詳細については、「EMR Serverless のメタストア設定」を参照してください。アプリケーションログ記録オプションの詳細については、「ログの保存」を参照してください。
- タグ — アプリケーションにカスタムタグを割り当てます。
[Submit job] (ジョブの送信) を選択します。

Hive

[名前] フィールドにジョブ実行の名前を入力します。
[ランタイムロール] フィールドに、EMR Serverless アプリケーションがジョブ実行のために引き受けることができる IAM ロールの名前を入力します。
[スクリプトの場所] フィールドに、実行するスクリプトまたは JAR の Amazon S3 の場所を入力します。Hive ジョブの場合、スクリプトは Hive (.sql) ファイルである必要があります。
(オプション) 残りのフィールドの値を入力します。
- 初期化スクリプトの場所 – Hive スクリプトを実行する前にテーブルを初期化するスクリプトの場所を入力します。
- Hive プロパティ – Hive プロパティセクションを展開し、このフィールドに Hive 設定パラメータを入力します。
- ジョブ設定 – 任意のジョブ設定を指定します。アプリケーションのデフォルトの設定を上書きするために、ジョブ設定を使用できます。Hive ジョブの場合、hive.exec.scratchdir および hive.metastore.warehouse.dir は hive-site 設定に必要なプロパティです。
```
{
    "applicationConfiguration": [
        {
            "classification": "hive-site",
            "configurations": [],
            "properties": {
                "hive.exec.scratchdir": "s3://DOC-EXAMPLE_BUCKET/hive/scratch",
                "hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET/hive/warehouse"
            }
        }
    ],
    "monitoringConfiguration": {}
}
```
- 追加設定 — AWS Glue データカタログをメタストアとしてアクティブ化または非アクティブ化し、アプリケーションログ設定を変更します。メタストア設定の詳細については、「EMR Serverless のメタストア設定」を参照してください。アプリケーションログ記録オプションの詳細については、「ログの保存」を参照してください。
- タグ — アプリケーションに任意のカスタムタグを割り当てます。
[Submit job] (ジョブの送信) を選択します。

ジョブ実行へのアクセス

アプリケーションの [詳細] ページの [ジョブ実行] タブからジョブ実行へアクセスして、ジョブ実行に対して次のアクションを実行できます。

ジョブのキャンセル — RUNNING 状態のジョブ実行をキャンセルするには、このオプションを選択します。ジョブ実行の移行の詳細については、「ジョブ実行状態」を参照してください。

ジョブのクローン — 以前のジョブ実行のクローンを作成して再送信するには、このオプションを選択します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

猶予期間を含むジョブ実行のキャンセル

の使用 AWS CLI

EMR Studio コンソールからのジョブの実行

ジョブを送信する

注記

ジョブ実行へのアクセス