View a markdown version of this page

AWS Batch SageMaker AI トレーニングジョブのサポート - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Batch SageMaker AI トレーニングジョブのサポート

AWS Batch ジョブキューは、送信されたジョブをコンピューティングリソースで実行する前に保存し、優先順位を付けます。が提供するサーバーレスジョブのスケジュールと優先順位付けツールを活用するために、SageMaker AI トレーニングジョブをジョブキューに送信できます AWS Batch。

仕組み

次の手順では、SageMaker AI トレーニング AWS Batch ジョブで ジョブキューを使用する方法のワークフローについて説明します。詳細なチュートリアルとサンプルノートブックについては、「はじめに」セクションを参照してください。

  • AWS Batch と必要なアクセス許可を設定します。詳細については、AWS Batchユーザーガイド の「AWS Batch のセットアップ」を参照してください。

  • コンソールまたは を使用して、次の AWS Batch リソースを作成します AWS CLI。

  • トレーニングコンテナイメージなど、SageMaker AI トレーニングジョブの詳細とリクエストを設定します。トレーニングジョブを AWS Batch キューに送信するには、 AWS CLI、 AWS SDK for Python (Boto3)、または SageMaker AI Python SDK を使用できます。

  • ジョブキューにトレーニングジョブを送信します。ジョブを送信するには、次のオプションを使用します。

    • AWS Batch SubmitServiceJob API を使用します。

    • SageMaker Python SDK の aws_batch モジュールを使用します。TrainingQueue オブジェクトとモデルトレーニングオブジェクト (推定ツールや ModelTrainer など) を作成したら、queue.submit() メソッドを使用してトレーニングジョブを TrainingQueue に送信できます。

  • ジョブを送信したら、 コンソール、 AWS Batch DescribeServiceJob API、または SageMaker AI DescribeTrainingJob API を使用して AWS Batch ジョブキューとジョブステータスを表示します。

コストと可用性

トレーニングジョブの料金の詳細については、「Amazon SageMaker の料金」を参照してください。では AWS Batch、Amazon EC2 インスタンスなど、使用された AWS リソースに対してのみ料金が発生します。詳細については、「AWS Batch 料金表」を参照してください。

は、トレーニングジョブ AWS リージョン が利用可能な任意の で SageMaker AI トレーニングジョブ AWS Batch に使用できます。詳細については、「Amazon SageMaker AI エンドポイントとクォータ」を参照してください。

必要に応じて必要なキャパシティを確保するために、SageMaker AI Flexible Training Plans (FTP) を使用できます。これらのプランでは、トレーニングジョブのキャパシティを予約できます。 AWS Batchをキューイング機能と組み合わせると、プランの期間中の使用率を最大化できます。詳細については、「トレーニングジョブまたは HyperPod クラスターのトレーニングプランを予約する」を参照してください。

はじめに

AWS Batch ジョブキューをセットアップして SageMaker AI トレーニングジョブを送信する方法のチュートリアルについては、「 AWS Batch ユーザーガイド」の「Getting started AWS Batch with SageMaker AI」を参照してください。

SageMaker AI Python SDK の aws_batch モジュールの使用方法を説明する Jupyter ノートブックについては、「amazon-sagemaker-examples GitHub リポジトリ」の「SageMaker AI トレーニングジョブのAWS Batch ノートブックの例」を参照してください。