翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
のサービスジョブの再試行戦略 AWS Batch
サービスジョブの再試行戦略により AWS Batch 、 は特定の条件下で失敗したサービスジョブを自動的に再試行できます。
サービスジョブには、いくつかの理由で複数回の試行が必要になる場合があります。
-
一時的なサービスの問題: 内部サービスエラー、スロットリング、または一時的な停止により、送信中または実行中にジョブが失敗する可能性があります。
-
トレーニング初期化の失敗: イメージのプルの問題や初期化エラーなど、ジョブの起動中の問題は再試行時に解決される可能性があります。
適切な再試行戦略を設定することで、ジョブの成功率を向上させ、特に長時間実行されるトレーニングワークロードに対する手動介入の必要性を減らすことができます。
注記
サービスジョブは、設定された再試行を消費することなく、容量不足エラーなど、特定のタイプの失敗を自動的に再試行します。再試行戦略は、主にアルゴリズムエラーやサービスの問題などの他のタイプの障害を処理します。
再試行戦略の設定
サービスジョブの再試行戦略は、シンプルな再試行回数と条件付き再試行ロジックの両方をサポートする ServiceJobRetryStrategy を使用して設定されます。
再試行設定
最も簡単な再試行戦略では、サービスジョブが失敗した場合に実行する再試行回数を指定します。
{ "retryStrategy": { "attempts": 3 } }
この設定では、サービスジョブが失敗した場合に最大 3 回再試行できます。
重要
attempts 値は、最初の試行を含め、ジョブを RUNNABLE状態に配置できる合計回数を表します。値 3 は、ジョブが最初に 1 回試行され、失敗するとさらに 2 回再試行されることを意味します。
evaluateOnExit で設定を再試行する
evaluateOnExit パラメータを使用して、ジョブを再試行するか、失敗を許可する条件を指定できます。これは、さまざまなタイプの障害で異なる処理が必要な場合に役立ちます。
evaluateOnExit 配列には最大 5 つの再試行戦略を含めることができ、それぞれがステータスの理由に基づいてアクション (RETRY または EXIT) と条件を指定します。
{ "retryStrategy": { "attempts": 5, "evaluateOnExit": [ { "action": "RETRY", "onStatusReason": "Received status from SageMaker: InternalServerError*" }, { "action": "EXIT", "onStatusReason": "Received status from SageMaker: ValidationException*" }, { "action": "EXIT", "onStatusReason": "*" } ] } }
この設定:
-
SageMaker AI の内部サーバーエラーが原因で失敗したジョブを再試行する
-
検証例外 (再試行によって解決されないクライアントエラー) が発生したジョブをすぐに失敗させる
-
他の障害タイプに対して終了するキャッチオールルールが含まれています
ステータス理由パターンマッチング
onStatusReason パラメータは、最大 512 文字のパターンマッチングをサポートします。パターンはワイルドカード (*) を使用し、SageMaker AI によって返されるステータス理由と照合できます。
サービスジョブの場合、SageMaker AI からのステータスメッセージには、SageMaker からのステータスの受信: AWS Batch」というプレフィックスが付けられ、生成されたメッセージと区別されます。一般的なパターンは次のとおりです。
-
Received status from SageMaker: InternalServerError*- 内部サービスエラーの一致 -
Received status from SageMaker: ValidationException*- クライアント検証エラーの一致 -
Received status from SageMaker: ResourceLimitExceeded*- リソース制限エラーの一致 -
*CapacityError*- キャパシティ関連の障害のマッチング
ヒント
特定のパターンマッチングを使用して、さまざまなエラータイプを適切に処理します。たとえば、内部サーバーエラーを再試行しますが、ジョブパラメータの問題を示す検証エラーですぐに失敗します。