

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS Batch 支援 SageMaker AI 訓練任務
<a name="training-job-queues"></a>

[AWS Batch 任務佇列](https://docs.aws.amazon.com/batch/latest/userguide/job_queues.html)會在提交的任務在運算資源上執行之前先將其儲存並排定優先順序。您可以將 SageMaker AI 訓練任務提交至任務佇列，以利用 提供的無伺服器任務排程和優先順序工具 AWS Batch。

## 運作方式
<a name="training-job-queues-how-it-works"></a>

下列步驟說明如何搭配 SageMaker AI 訓練 AWS Batch 任務使用任務佇列的工作流程。如需更詳細的教學課程和範例筆記本，請參閱[開始使用](#training-job-queues-get-started)一節。
+ 設定 AWS Batch 和任何必要的許可。如需詳細資訊，請參閱《AWS Batch 使用者指南》**中的[設定 AWS Batch](https://docs.aws.amazon.com/batch/latest/userguide/get-set-up-for-aws-batch.html)。
+ 在 主控台或使用 建立下列 AWS Batch 資源 AWS CLI：
  + [服務環境](https://docs.aws.amazon.com/batch/latest/userguide/service-environments.html) - 包含用於與 SageMaker AI 整合的組態參數。
  + [SageMaker AI 訓練任務佇列](https://docs.aws.amazon.com/batch/latest/userguide/create-sagemaker-job-queue.html) - 與 SageMaker AI 整合以提交訓練任務。
+ 設定您的詳細資訊並請求 SageMaker AI 訓練任務，例如您的訓練容器映像。若要將訓練任務提交至 AWS Batch 佇列，您可以使用 AWS CLI 適用於 Python (Boto3) 的 AWS SDK、 或 SageMaker AI Python SDK。
+ 將您的訓練任務提交至任務佇列。您可以使用下列選項來提交任務：
  + 使用 AWS Batch [SubmitServiceJob](https://docs.aws.amazon.com/batch/latest/APIReference/API_SubmitServiceJob.html) API。
  + 從 SageMaker AI Python SDK 使用 [`aws_batch` 模組](https://github.com/aws/sagemaker-python-sdk/tree/master/src/sagemaker/aws_batch)。在建立 TrainingQueue 物件和模型訓練物件 (例如估算器或 ModelTrainer) 之後，您可以使用 `queue.submit()` 方法將訓練任務提交至 TrainingQueue。
+ 提交任務後，請使用 AWS Batch 主控台、 AWS Batch [DescribeServiceJob](https://docs.aws.amazon.com/batch/latest/APIReference/API_DescribeServiceJob.html) API 或 SageMaker AI [DescribeTrainingJob](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html) API 檢視您的任務佇列和任務狀態。

## 成本和可用性
<a name="training-job-queues-cost-availability"></a>

如需訓練任務的詳細定價資訊，請參閱 [Amazon SageMaker AI 定價](https://aws.amazon.com/sagemaker-ai/pricing/)。使用 時 AWS Batch，您只需支付任何使用 AWS 的資源，例如 Amazon EC2 執行個體。如需詳細資訊，請參閱 [AWS Batch 定價](https://aws.amazon.com/batch/pricing/)。

您可以在提供訓練任務的任何 AWS 區域 中使用 AWS Batch 進行 SageMaker AI 訓練任務。如需詳細資訊，請參閱[Amazon SageMaker AI 端點與配額](https://docs.aws.amazon.com/general/latest/gr/sagemaker.html)。

若要確保您在需要時擁有所需的容量，您可以使用 SageMaker AI 彈性訓練計畫 (FTP)。這些計畫可讓您為訓練任務保留容量。與 AWS Batch的佇列功能結合時，您可以在計劃持續時間內最大化使用率。如需詳細資訊，請參閱[為您的訓練任務或 HyperPod 叢集保留訓練計畫](https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html)。

## 開始使用
<a name="training-job-queues-get-started"></a>

如需如何設定 AWS Batch 任務佇列和提交 SageMaker AI 訓練任務的教學課程，請參閱*AWS Batch 《 使用者指南*》中的 [AWS Batch SageMaker AI 入門](https://docs.aws.amazon.com/batch/latest/userguide/getting-started-sagemaker.html)。

如需展示如何在 SageMaker AI Python SDK 中使用 `aws_batch` 模組的 Jupyter 筆記本，請參閱 [amazon-sagemaker-examples GitHub 儲存庫中的AWS Batch for SageMaker AI T訓練任務筆記本範例](https://github.com/aws/amazon-sagemaker-examples/tree/default/%20%20%20%20%20%20build_and_train_models/sm-training-queues)。