ジョブ - AWS Glue

ジョブ

Jobs API では、AWS Glue でのジョブの作成、更新、削除、表示に関連するデータ型と API について説明します。

データ型

Job 構造

ジョブ定義を指定します。

フィールド
  • Name – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    このジョブ定義に割り当てる名前。

  • JobMode – UTF-8 文字列 (有効な値: SCRIPT="" | VISUAL="" | NOTEBOOK="")。

    ジョブの作成方法を説明するモード。次の値を指定できます:

    • SCRIPT - ジョブは AWS Glue Studio スクリプトエディタを使用して作成されました。

    • VISUAL - ジョブは AWS Glue Studio ビジュアルエディタを使用して作成されました。

    • NOTEBOOK - ジョブはインタラクティブセッションノートブックを使用して作成されました。

    JobMode フィールドが欠落しているか null の場合、SCRIPT がデフォルト値として割り当てられます。

  • JobRunQueuingEnabled – ブール。

    このジョブのジョブ実行に対し、ジョブ実行キューイングが有効であるかどうかを指定します。

    true の値は、ジョブ実行キューイングがジョブ実行に対して有効であることを意味します。false または未入力の場合、ジョブ実行はキューイングの対象になりません。

    このフィールドがジョブ実行で設定された値と一致しない場合、ジョブ実行フィールドの値が使用されます。

  • Description – 説明文字列。2048 バイト長以下。URI address multi-line string pattern に一致。

    ジョブの説明。

  • LogUri – UTF–8 文字列。

    このフィールドは、将来の利用のために予約されています。

  • Role – UTF–8 文字列。

    このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN)。

  • CreatedOn – タイムスタンプ。

    このジョブ定義を作成した日時。

  • LastModifiedOn – タイムスタンプ。

    このジョブ定義を変更した最後の時点。

  • ExecutionPropertyExecutionProperty オブジェクト。

    このジョブに許可される同時実行の最大数を指定する ExecutionProperty

  • CommandJobCommand オブジェクト。

    このジョブを実行する JobCommand

  • DefaultArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。

    独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。

    ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、AWS Glue 接続、AWS Secrets Manager または他のシークレット管理メカニズムから取得します。

    独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「 Python で AWS Glue API を呼び出す」を参照してください。

    Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「AWS Glueで使用するスペシャルパラメータ」を参照してください。

    Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。

  • NonOverridableArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。

  • ConnectionsConnectionsList オブジェクト。

    このジョブに使用される接続。

  • MaxRetries – 数値 (整数)。

    ジョブ実行の失敗後に、このジョブを再試行する最大回数。

  • AllocatedCapacity – 数値 (整数)。

    このフィールドは廃止されました。代わりに MaxCapacity を使用します。

    このジョブの実行に割り当てられた AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

  • Timeout – 数値 (整数)。1 以上。

    ジョブのタイムアウト (分)。ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。

    ジョブのタイムアウト値は 7 日または 10080 分未満である必要があります。それ以外の場合は、ジョブは例外をスローします。

    値を空白のままにすると、タイムアウトはデフォルトで 2,880 分に設定されます。

    タイムアウト値が 7 日を超える既存の AWS Glue ジョブは、デフォルトで 7 日に設定されます。たとえば、バッチジョブに 20 日間のタイムアウトを指定している場合、7 日目に停止します。

    ストリーミングジョブでメンテナンスウィンドウを設定している場合、7 日後にメンテナンスウィンドウ中に再起動されます。

  • MaxCapacity – 数値 (double)。

    Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    一方、Glue バージョン 2.0 以降のジョブでは、Maximum capacity を指定できません。代わりに、Worker typeNumber of workers を指定する必要があります。

    WorkerType および NumberOfWorkers を使用している場合は MaxCapacity を設定しないでください。

    MaxCapacity に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。

    • Python シェルジョブを指定すると (JobCommand.Name="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。

    • Apache Spark ETL ジョブ (JobCommand.Name="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。

    • G.1X ワーカータイプでは、各ワーカーは 1 DPU (4 vCPU、16 GB のメモリ、94 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.2X ワーカータイプでは、各ワーカーは 2 DPU (8 vCPU、32 GB のメモリ、138 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.4X ワーカータイプでは、各ワーカーは 4 DPU (16 vCPU、64 GB のメモリ、256 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、以下の AWS リージョンで使用できます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム)。

    • G.8X ワーカータイプでは、各ワーカーは 8 DPU (32 vCPU、128 GB のメモリ、512 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、G.4X ワーカータイプでサポートされているのと同じ AWS リージョンで使用できます。

    • G.025X ワーカータイプでは、各ワーカーは 0.25 DPU (2 vCPU、4 GB のメモリ、84 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。少量のストリーミングジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降のストリーミングジョブでのみ使用できます。

    • Z.2X ワーカータイプでは、各ワーカーは 2 M-DPU (8 vCPU、64 GB のメモリ、128 GB のディスク) にマッピングされており、オートスケーラーに基づき最大 8 個の Ray ワーカーを提供します。

  • NumberOfWorkers – 数値 (整数)。

    ジョブの実行時に割り当てられた、定義済みの workerType ワーカー数。

  • SecurityConfiguration – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    このジョブで使用される SecurityConfiguration 構造の名前。

  • NotificationPropertyNotificationProperty オブジェクト。

    ジョブ通知の設定プロパティを指定します。

  • Running – ブール。

    このフィールドは、将来の利用のために予約されています。

  • GlueVersion – UTF-8 文字列。1~255 バイト長。Custom string pattern #47 に一致。

    Spark ジョブでは、AWS Glue がジョブで使用できる Apache Spark と Python のバージョンは GlueVersion によって決まります。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。

    Ray ジョブの場合、GlueVersion4.0 以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドの Runtime パラメータによって決まります。

    利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue バージョン」を参照してください。

    Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。

  • CodeGenConfigurationNodes – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #58 に適合する UTF-8 文字列です。

    各値は CodeGenConfigurationNode オブジェクトです。

    Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。

  • ExecutionClass – UTF-8 文字列。16 バイト長以下 (有効値: FLEX="" | STANDARD="")。

    ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。

    柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。

    AWS Glue バージョン 3.0 以上のジョブの場合のみ、コマンドタイプ glueetlExecutionClassFLEX に設定できます。柔軟な実行クラスは Spark ジョブで使用できます。

  • SourceControlDetailsSourceControlDetails オブジェクト。

    ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。

  • MaintenanceWindow – UTF-8 文字列。Custom string pattern #34 に一致。

    このフィールドでは、ストリーミングジョブのメンテナンスウィンドウの曜日と時間を指定します。AWS Glue は定期的にメンテナンスアクティビティを実行します。AWS Glue は、これらのメンテナンスウィンドウ中にストリーミングジョブを再起動する必要があります。

    AWS Glue は、指定されたメンテナンスウィンドウの 3 時間以内にジョブを再起動します。たとえば、月曜日の午前 10 時 (GMT) にメンテナンスウィンドウを設定すると、ジョブは午前 10 時 (GMT) から午後 1 時 (GMT) までの間に再起動されます。

  • ProfileName – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    ジョブに関連関連付けられた AWS Glue 使用プロフィールの名前。

ExecutionProperty 構造

ジョブの実行プロパティ。

フィールド
  • MaxConcurrentRuns – 数値 (整数)。

    このジョブで許可される同時実行の最大数。デフォルトは 1 です。このしきい値に達すると、エラーが返されます。指定できる最大値は、サービスの制限によってコントロールされます。

NotificationProperty 構造

通知の構成プロパティを指定します。

フィールド
  • NotifyDelayAfter – 数値 (整数)。1 以上。

    ジョブの実行が開始された後、ジョブ実行遅延通知を送信するまでの待機時間 (分単位)。

JobCommand 構造

ジョブの実行時に実行するコードを指定します。

フィールド
  • Name – UTF-8 文字列。

    ジョブコマンドの名前。Apache Spark ETL ジョブの場合は、glueetl を指定する必要があります。Python シェルジョブの場合は、pythonshell を指定する必要があります。Apache Spark ストリーミング ETL ジョブの場合は、gluestreaming を指定する必要があります。Ray ジョブの場合は、glueray を指定する必要があります。

  • ScriptLocation - UTF-8 文字列。400000 バイト長以下。

    ジョブを実行するスクリプトへの Amazon Simple Storage Service (Amazon S3) パスを指定します。

  • PythonVersion – UTF-8 文字列。Custom string pattern #48 に一致。

    Python シェルジョブを実行するために使用中の Python のバージョン。指定できる値は、2 または 3 です。

  • Runtime - UTF-8 文字列。64 バイト長以下。Custom string pattern #33 に一致。

    Ray ジョブではランタイムを使用して、環境で使用可能な Ray、Python、および他のライブラリのバージョンを指定します。このフィールドは、他のジョブタイプでは使用されません。サポートされているランタイム環境の値については、「AWS Glue デベロッパーガイド」の「サポートされている Ray のランタイム環境」を参照してください。

ConnectionsList 構造

ジョブが使用する接続を指定します。

フィールド
  • Connections - UTF-8 文字列の配列。文字列 1,000 個以下。

    ジョブが使用する接続のリスト。

JobUpdate 構造

既存のジョブ定義を更新するための情報を指定します。以前のジョブ定義はこの情報によって完全に上書きされます。

フィールド
  • JobMode – UTF-8 文字列 (有効な値: SCRIPT="" | VISUAL="" | NOTEBOOK="")。

    ジョブの作成方法を説明するモード。次の値を指定できます:

    • SCRIPT - ジョブは AWS Glue Studio スクリプトエディタを使用して作成されました。

    • VISUAL - ジョブは AWS Glue Studio ビジュアルエディタを使用して作成されました。

    • NOTEBOOK - ジョブはインタラクティブセッションノートブックを使用して作成されました。

    JobMode フィールドが欠落しているか null の場合、SCRIPT がデフォルト値として割り当てられます。

  • JobRunQueuingEnabled – ブール。

    このジョブのジョブ実行に対し、ジョブ実行キューイングが有効であるかどうかを指定します。

    true の値は、ジョブ実行キューイングがジョブ実行に対して有効であることを意味します。false または未入力の場合、ジョブ実行はキューイングの対象になりません。

    このフィールドがジョブ実行で設定された値と一致しない場合、ジョブ実行フィールドの値が使用されます。

  • Description – 説明文字列。2,048 バイト長以下。URI address multi-line string pattern に一致。

    定義するジョブの説明。

  • LogUri – UTF–8 文字列。

    このフィールドは、将来の利用のために予約されています。

  • Role – UTF–8 文字列。

    このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN) (必須)。

  • ExecutionPropertyExecutionProperty オブジェクト。

    このジョブに許可される同時実行の最大数を指定する ExecutionProperty

  • CommandJobCommand オブジェクト。

    このジョブを実行する JobCommand (必須)。

  • DefaultArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。

    独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。

    ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、AWS Glue 接続、AWS Secrets Manager または他のシークレット管理メカニズムから取得します。

    独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「 Python で AWS Glue API を呼び出す」を参照してください。

    Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「AWS Glueで使用するスペシャルパラメータ」を参照してください。

    Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。

  • NonOverridableArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。

  • ConnectionsConnectionsList オブジェクト。

    このジョブに使用される接続。

  • MaxRetries – 数値 (整数)。

    失敗した場合にこのジョブを再試行する最大回数。

  • AllocatedCapacity – 数値 (整数)。

    このフィールドは廃止されました。代わりに MaxCapacity を使用します。

    このジョブに割り当てる AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

  • Timeout – 数値 (整数)。1 以上。

    ジョブのタイムアウト (分)。ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。

    ジョブのタイムアウト値は 7 日または 10080 分未満である必要があります。それ以外の場合は、ジョブは例外をスローします。

    値を空白のままにすると、タイムアウトはデフォルトで 2,880 分に設定されます。

    タイムアウト値が 7 日を超える既存の AWS Glue ジョブは、デフォルトで 7 日に設定されます。たとえば、バッチジョブに 20 日間のタイムアウトを指定している場合、7 日目に停止します。

    ストリーミングジョブでメンテナンスウィンドウを設定している場合、7 日後にメンテナンスウィンドウ中に再起動されます。

  • MaxCapacity – 数値 (double)。

    Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    一方、Glue バージョン 2.0 以降のジョブでは、Maximum capacity を指定できません。代わりに、Worker typeNumber of workers を指定する必要があります。

    WorkerType および NumberOfWorkers を使用している場合は MaxCapacity を設定しないでください。

    MaxCapacity に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。

    • Python シェルジョブを指定すると (JobCommand.Name="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。

    • Apache Spark ETL ジョブ (JobCommand.Name="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。詳細については、「Spark ジョブのジョブプロパティの定義」を参照してください

  • NumberOfWorkers – 数値 (整数)。

    ジョブの実行時に割り当てられた、定義済みの workerType ワーカー数。

  • SecurityConfiguration – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    このジョブで使用される SecurityConfiguration 構造の名前。

  • NotificationPropertyNotificationProperty オブジェクト。

    ジョブ通知の設定プロパティを指定します。

  • GlueVersion – UTF-8 文字列。1~255 バイト長。Custom string pattern #47 に一致。

    Spark ジョブでは、AWS Glue がジョブで使用できる Apache Spark と Python のバージョンは GlueVersion によって決まります。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。

    Ray ジョブの場合、GlueVersion4.0 以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドの Runtime パラメータによって決まります。

    利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue バージョン」を参照してください。

    Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。

  • CodeGenConfigurationNodes – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #58 に適合する UTF-8 文字列です。

    各値は CodeGenConfigurationNode オブジェクトです。

    Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。

  • ExecutionClass – UTF-8 文字列。16 バイト長以下 (有効値: FLEX="" | STANDARD="")。

    ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準の実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。

    柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。

    AWS Glue バージョン 3.0 以上のジョブの場合のみ、コマンドタイプ glueetlExecutionClassFLEX に設定できます。柔軟な実行クラスは Spark ジョブで使用できます。

  • SourceControlDetailsSourceControlDetails オブジェクト。

    ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。

  • MaintenanceWindow – UTF-8 文字列。Custom string pattern #34 に一致。

    このフィールドでは、ストリーミングジョブのメンテナンスウィンドウの曜日と時間を指定します。AWS Glue は定期的にメンテナンスアクティビティを実行します。AWS Glue は、これらのメンテナンスウィンドウ中にストリーミングジョブを再起動する必要があります。

    AWS Glue は、指定されたメンテナンスウィンドウの 3 時間以内にジョブを再起動します。たとえば、月曜日の午前 10 時 (GMT) にメンテナンスウィンドウを設定すると、ジョブは午前 10 時 (GMT) から午後 1 時 (GMT) までの間に再起動されます。

  • ProfileName – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    ジョブに関連関連付けられた AWS Glue 使用プロフィールの名前。

SourceControlDetails の構造

ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。

フィールド
  • Provider – UTF-8 文字列 (有効な値: GITHUB | AWS_CODE_COMMIT)。

    リモートリポジトリのプロバイダ。

  • Repository – UTF-8 文字列。1~512 バイト長。

    ジョブのアーティファクトを含むリモートリポジトリの名前。

  • Owner – UTF-8 文字列。1~512 バイト長。

    ジョブのアーティファクトを含むリモートリポジトリの所有者。

  • Branch – UTF-8 文字列。1~512 バイト長。

    リモートリポジトリ内のオプションのブランチ。

  • Folder – UTF-8 文字列。1~512 バイト長。

    リモートリポジトリ内のオプションのフォルダ。

  • LastCommitId – UTF-8 文字列。1~512 バイト長。

    リモートリポジトリ内のコミットの最後のコミット ID。

  • LastSyncTimestamp – UTF-8 文字列。1~512 バイト長。

    ジョブ同期が最後に実行された日時。

  • AuthStrategy – UTF-8 文字列 (有効な値: PERSONAL_ACCESS_TOKEN | AWS_SECRETS_MANAGER)。

    認証のタイプ。AWS Secrets Manager に保存されている認証トークンまたは個人用アクセストークンのいずれかです。

  • AuthToken – UTF-8 文字列。1~512 バイト長。

    認可トークンの値。

操作

CreateJob アクション (Python: create_job)

新しいジョブ定義を作成します。

リクエスト
  • Name必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    このジョブ定義に割り当てる名前。 アカウント内で一意にする必要があります。

  • JobMode – UTF-8 文字列 (有効な値: SCRIPT="" | VISUAL="" | NOTEBOOK="")。

    ジョブの作成方法を説明するモード。次の値を指定できます:

    • SCRIPT - ジョブは AWS Glue Studio スクリプトエディタを使用して作成されました。

    • VISUAL - ジョブは AWS Glue Studio ビジュアルエディタを使用して作成されました。

    • NOTEBOOK - ジョブはインタラクティブセッションノートブックを使用して作成されました。

    JobMode フィールドが欠落しているか null の場合、SCRIPT がデフォルト値として割り当てられます。

  • JobRunQueuingEnabled – ブール。

    このジョブのジョブ実行に対し、ジョブ実行キューイングが有効であるかどうかを指定します。

    true の値は、ジョブ実行キューイングがジョブ実行に対して有効であることを意味します。false または未入力の場合、ジョブ実行はキューイングの対象になりません。

    このフィールドがジョブ実行で設定された値と一致しない場合、ジョブ実行フィールドの値が使用されます。

  • Description – 説明文字列。2,048 バイト長以下。URI address multi-line string pattern に一致。

    定義するジョブの説明。

  • LogUri – UTF–8 文字列。

    このフィールドは、将来の利用のために予約されています。

  • Role必須: UTF–8 文字列。

    このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN)。

  • ExecutionPropertyExecutionProperty オブジェクト。

    このジョブに許可される同時実行の最大数を指定する ExecutionProperty

  • Command必須: JobCommand オブジェクト。

    このジョブを実行する JobCommand

  • DefaultArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。

    独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。

    ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、AWS Glue 接続、AWS Secrets Manager または他のシークレット管理メカニズムから取得します。

    独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「 Python で AWS Glue API を呼び出す」を参照してください。

    Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「AWS Glueで使用するスペシャルパラメータ」を参照してください。

    Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。

  • NonOverridableArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。

  • ConnectionsConnectionsList オブジェクト。

    このジョブに使用される接続。

  • MaxRetries – 数値 (整数)。

    失敗した場合にこのジョブを再試行する最大回数。

  • AllocatedCapacity – 数値 (整数)。

    このパラメータは廃止されました。代わりに MaxCapacity を使用します。

    このジョブに割り当てる AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

  • Timeout – 数値 (整数)。1 以上。

    ジョブのタイムアウト (分)。ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。

    ジョブのタイムアウト値は 7 日または 10080 分未満である必要があります。それ以外の場合は、ジョブは例外をスローします。

    値を空白のままにすると、タイムアウトはデフォルトで 2,880 分に設定されます。

    タイムアウト値が 7 日を超える既存の AWS Glue ジョブは、デフォルトで 7 日に設定されます。たとえば、バッチジョブに 20 日間のタイムアウトを指定している場合、7 日目に停止します。

    ストリーミングジョブでメンテナンスウィンドウを設定している場合、7 日後にメンテナンスウィンドウ中に再起動されます。

  • MaxCapacity – 数値 (double)。

    Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    一方、Glue バージョン 2.0 以降のジョブでは、Maximum capacity を指定できません。代わりに、Worker typeNumber of workers を指定する必要があります。

    WorkerType および NumberOfWorkers を使用している場合は MaxCapacity を設定しないでください。

    MaxCapacity に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。

    • Python シェルジョブを指定すると (JobCommand.Name="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。

    • Apache Spark ETL ジョブ (JobCommand.Name="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。

  • SecurityConfiguration – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    このジョブで使用される SecurityConfiguration 構造の名前。

  • Tags – キーと値のペアのマップ配列。50 ペア以下。

    各キーは UTF-8 文字列で、1~128 バイト長です。

    各値は UTF-8 文字列で、256 バイト長以下です。

    このジョブと一緒に使用するタグです。ジョブへのアクセスを制限するためにタグを使用することができます。AWS Glue のタグの詳細については、デベロッパーガイドの「AWS Tags in AWS Glue」を参照してください。

  • NotificationPropertyNotificationProperty オブジェクト。

    ジョブ通知の設定プロパティを指定します。

  • GlueVersion – UTF-8 文字列。1~255 バイト長。Custom string pattern #47 に一致。

    Spark ジョブでは、AWS Glue がジョブで使用できる Apache Spark と Python のバージョンは GlueVersion によって決まります。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。

    Ray ジョブの場合、GlueVersion4.0 以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドの Runtime パラメータによって決まります。

    利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue バージョン」を参照してください。

    Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。

  • NumberOfWorkers – 数値 (整数)。

    ジョブの実行時に割り当てられた、定義済みの workerType ワーカー数。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。

    • G.1X ワーカータイプでは、各ワーカーは 1 DPU (4 vCPU、16 GB のメモリ、94 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.2X ワーカータイプでは、各ワーカーは 2 DPU (8 vCPU、32 GB のメモリ、138 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.4X ワーカータイプでは、各ワーカーは 4 DPU (16 vCPU、64 GB のメモリ、256 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、以下の AWS リージョンで使用できます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム)。

    • G.8X ワーカータイプでは、各ワーカーは 8 DPU (32 vCPU、128 GB のメモリ、512 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用可能で、G.4X ワーカータイプでサポートされているのと同じ AWS リージョンで使用できます。

    • G.025X ワーカータイプでは、各ワーカーは 0.25 DPU (2 vCPU、4 GB のメモリ、84 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。少量のストリーミングジョブには、このワーカータイプをお勧めします。このワーカータイプは、AWS Glue バージョン 3.0 以降のストリーミングジョブでのみ使用できます。

    • Z.2X ワーカータイプでは、各ワーカーは 2 M-DPU (8 vCPU、64 GB のメモリ、128 GB のディスク) にマッピングされており、オートスケーラーに基づき最大 8 個の Ray ワーカーを提供します。

  • CodeGenConfigurationNodes – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #58 に適合する UTF-8 文字列です。

    各値は CodeGenConfigurationNode オブジェクトです。

    Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。

  • ExecutionClass – UTF-8 文字列。16 バイト長以下 (有効値: FLEX="" | STANDARD="")。

    ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準の実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。

    柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。

    AWS Glue バージョン 3.0 以上のジョブの場合のみ、コマンドタイプ glueetlExecutionClassFLEX に設定できます。柔軟な実行クラスは Spark ジョブで使用できます。

  • SourceControlDetailsSourceControlDetails オブジェクト。

    ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。

  • MaintenanceWindow – UTF-8 文字列。Custom string pattern #34 に一致。

    このフィールドでは、ストリーミングジョブのメンテナンスウィンドウの曜日と時間を指定します。AWS Glue は定期的にメンテナンスアクティビティを実行します。AWS Glue は、これらのメンテナンスウィンドウ中にストリーミングジョブを再起動する必要があります。

    AWS Glue は、指定されたメンテナンスウィンドウの 3 時間以内にジョブを再起動します。たとえば、月曜日の午前 10 時 (GMT) にメンテナンスウィンドウを設定すると、ジョブは午前 10 時 (GMT) から午後 1 時 (GMT) までの間に再起動されます。

  • ProfileName – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    ジョブに関連関連付けられた AWS Glue 使用プロフィールの名前。

レスポンス
  • Name – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    このジョブ定義に指定された一意の名前。

エラー
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

UpdateJob アクション (Python: update_job)

既存のジョブ定義を更新します。以前のジョブ定義はこの情報によって完全に上書きされます。

リクエスト
  • JobName必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    更新するジョブ定義の名前。

  • JobUpdate必須: JobUpdate オブジェクト。

    ジョブ定義の更新に使用する値を指定します。指定されていない設定は削除されるか、デフォルト値にリセットされます。

  • ProfileName – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    ジョブに関連関連付けられた AWS Glue 使用プロフィールの名前。

レスポンス
  • JobName – UTF-8 文字列、1~255 バイト長。Single-line string pattern に一致。

    更新されたジョブ定義の名前を返します。

エラー
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

GetJob アクション (Python: get_job)

既存のジョブ定義を取得します。

リクエスト
  • JobName必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    取得するジョブ定義の名前。

レスポンス
  • JobJob オブジェクト。

    リクエストされたジョブ定義。

エラー
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobs アクション (Python: get_jobs)

すべての現在のジョブ定義を取得します。

リクエスト
  • NextToken – UTF-8 文字列。

    継続トークン (これが継続呼び出しの場合)。

  • MaxResults – 1~1000 の数値 (整数)。

    応答の最大サイズ。

応答
  • JobsJob オブジェクトの配列。

    ジョブ定義のリスト。

  • NextToken – UTF–8 文字列。

    継続トークン (一部のジョブ定義がまだ返されていない場合)。

エラー
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

DeleteJob アクション (Python: delete_job)

指定したジョブ定義を削除します。ジョブ定義が見つからない場合、例外はスローされません。

リクエスト
  • JobName必須: UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    削除するジョブ定義の名前。

レスポンス
  • JobName – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    削除されたジョブ定義の名前。

エラー
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

ListJobs アクション (Python: list_jobs)

この AWS アカウントのすべてのジョブリソース、または指定されたタグを持つリソースの名前を取得します。このオペレーションにより、アカウントで利用可能なリソースとその名前を確認できます。

このオペレーションはオプションの Tags フィールドを受け取ります。このフィールドを応答のフィルターとして使用すると、タグ付きリソースをグループとして取得できます。タグフィルタリングの使用を選択した場合は、タグが付いたリソースのみが取得されます。

リクエスト
  • NextToken – UTF-8 文字列。

    継続トークン (これが継続リクエストの場合)。

  • MaxResults – 1~1000 の数値 (整数)。

    返されるリストの最大サイズ。

  • Tags – キーと値のペアのマップ配列。50 ペア以下。

    各キーは UTF-8 文字列で、1~128 バイト長です。

    各値は UTF-8 文字列で、256 バイト長以下です。

    これらのタグ付きリソースのみを返すように指定します。

レスポンス
  • JobNames – UTF-8 文字列の配列。

    アカウント内のすべてのジョブの名前、または指定されたタグを持つジョブの名前。

  • NextToken – UTF–8 文字列。

    継続トークン (戻されたリストに最後に使用可能なメトリクスが含まれていない場合)。

エラー
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

BatchGetJobs アクション (Python: batch_get_jobs)

指定されたジョブ名のリストのリソースメタデータのリストを返します。ListJobs オペレーションを呼び出した後で、このオペレーションを呼び出すことで、アクセス許可が付与されているデータにアクセスできます。このオペレーションは、タグを使用するアクセス許可条件を含め、すべての IAM のアクセス許可をサポートします。

リクエスト
  • JobNames必須: UTF-8 文字列の配列。

    ジョブ名のリスト。これは ListJobs 操作から返された名前であることもあります。

応答
  • JobsJob オブジェクトの配列。

    ジョブ定義のリスト。

  • JobsNotFound – UTF-8 文字列の配列。

    ジョブの名前のリストが見つかりません。

エラー
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException