檢視訓練計畫詳細資訊 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

檢視訓練計畫詳細資訊

若要監控狀態或擷取訓練計畫的詳細資訊,您可以使用 DescribeTrainingPlan API。API 回應包含 Status 欄位,其中反映訓練計畫的目前狀態:

  • 如果計畫購買失敗,狀態會設定為 Failed

  • 成功付款後,狀態會根據計畫的開始日期從 Pending 轉換為 Scheduled

  • 當計畫來到其開始日期時,狀態會變更為 Active

  • 對於具有多個不連續預留容量的計畫,狀態會在作用中期間之間還原為 Scheduled,直到下一個預留容量的開始日期為止。

  • 在計畫的結束日期之後,狀態會變成 Expired

一旦狀態為 Scheduled,您就可以針對 SageMaker 訓練任務或 HyperPod 叢集工作負載,利用計畫中預留的容量。

注意
  • 與計畫相關聯的訓練任務會保持 Pending 狀態,直到計畫變成 Active 為止。

  • 對於針對運算容量使用訓練計畫的 HyperPod 叢集,一旦建立,執行個體群組狀態就會以 InService 出現。

下列範例使用 AWS CLI 命令,依其名稱擷取訓練計劃的詳細資訊。

aws sagemaker describe-training-plan \ --training-plan-name "name"

此 JSON 文件是來自 SageMaker 訓練計畫 API 的範例回應。此回應提供已成功建立之訓練計畫的詳細資訊。

{ "AvailableInstanceCount": 2, "CurrencyCode": "USD", "DurationHours": 48, "DurationMinutes": 0, "EndTime": "2024-09-28T04:30:00-07:00", "InUseInstanceCount": 2, "ReservedCapacitySummaries": [ { "AvailabilityZone": "string", "DurationHours": 48, "DurationMinutes": 0, "EndTime": "2024-09-28T04:30:00-07:00", "InstanceType": "ml.p5.48xlarge", "ReservedCapacityArn": "arn:aws:sagemaker:us-east-1:123456789123:reserved-capacity/large-models-fine-tuning-rc1", "StartTime": "2024-09-26T04:30:00-07:00", "Status": "Scheduled", "TotalInstanceCount": 4, "UltraServerCount": 4, "UltraServerType": "ml.p6e-gb200.36xlarge" } ], "StartTime": "2024-09-26T04:30:00-07:00", "Status": "Scheduled", "StatusMessage": "Payment confirmed, training plan scheduled." "TargetResources": [ "training-job" ], "TotalInstanceCount": 4, "TotalUltraServerCount": 4, "TrainingPlanArn": "arn:aws:sagemaker:us-east-1:123456789123:training-plan/large-models-fine-tuning", "TrainingPlanName": "large-models-fine-tuning", "UpfrontFee": "xxxx.xx" }

下列各節定義 DescribeTrainingPlan API 操作的必要輸入請求參數。

必要參數

  • TrainingPlanName:您要描述的訓練計畫名稱。