AWS Batch で SageMaker トレーニングジョブのキューを作成する - AWS Batch

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Batch で SageMaker トレーニングジョブのキューを作成する

SageMaker トレーニングジョブのキューは、SageMaker AI サービスと直接統合され、基盤となるコンピューティングインフラストラクチャを管理することなく、サーバーレスジョブスケジューリングを提供します。

前提条件

SageMaker トレーニングジョブのキューを作成する前に、以下があることを確認してください。

Create a SageMaker Training job queue (AWS Batch console)
  1. AWS Batch コンソールを https://console.aws.amazon.com/batch/ で開きます。

  2. ナビゲーションペインで [ジョブキュー][作成] を選択します。

  3. [オーケストレーションタイプ] で、[SageMaker トレーニング] を選択します。

  4. [ジョブキューの設定] で以下を行います。

    1. [名前] にジョブキューの名前を入力します。

    2. [優先度] には 0~1000 の値を入力します。サービス環境では、優先度の高いジョブキューが優先されます。

    3. (オプション) スケジューリングポリシーの Amazon リソースネーム (ARN) では、既存のスケジューリングポリシーを選択します。

    4. [接続されたサービス環境] では、リストからサービス環境を選択してジョブキューに関連付けます。

  5. (オプション) [ジョブ状態の制限] の場合:

    1. [設定ミス] の場合、SERVICE_ENVIRONMENT_MAX_RESOURCE を選択し、[最大実行可能時間 (秒)] を入力します。

    2. [容量] の場合、INSUFFICIENT_INSTANCE_CAPACITY を選択し、[最大実行可能時間 (秒)] を入力します。

  6. [ジョブキューの作成] を選択します。

Create a SageMaker Training job queue (AWS CLI)

create-job-queue コマンドを使用して SageMaker トレーニングジョブのキューを作成します。

次の例では、サービス環境を使用する基本的な SageMaker トレーニングジョブのキューを作成します。

aws batch create-job-queue \ --job-queue-name my-sm-training-fifo-jq \ --job-queue-type SAGEMAKER_TRAINING \ --priority 1 \ --service-environment-order order=1,serviceEnvironment=ExampleServiceEnvironment

ExampleServiceEnvironment をサービス環境の名前に置き換えます。

このコマンドにより、以下のような出力が返されます。

{ "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq" }

ジョブキューを作成したら、ジョブキューが正常に作成され、有効な状態であることを確認します。

describe-job-queues コマンドを使用して、ジョブキューの詳細を表示します。

aws batch describe-job-queues --job-queues my-sm-training-fifo-jq

このコマンドにより、以下のような出力が返されます。

{ "jobQueues": [ { "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq", "state": "ENABLED", "status": "VALID", "statusReason": "JobQueue Healthy", "priority": 1, "computeEnvironmentOrder": [], "serviceEnvironmentOrder": [ { "order": 1, "serviceEnvironment": "arn:aws:batch:region:account:service-environment/ExampleServiceEnvironment" } ], "jobQueueType": "SAGEMAKER_TRAINING", "tags": {}, "jobStateTimeLimitActions": [] } ] }

以下を確認してください。

  • state は、ENABLED です。

  • status は、VALID です。

  • statusReason は、JobQueue Healthy です。

  • jobQueueType は、SAGEMAKER_TRAINING です。

  • serviceEnvironmentOrder がサービス環境を参照する