本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
檢視訓練計畫詳細資訊
若要監控狀態或擷取訓練計畫的詳細資訊,您可以使用 DescribeTrainingPlan API。API 回應包含 Status 欄位,其中反映訓練計畫的目前狀態:
-
如果計畫購買失敗,狀態會設定為
Failed。 -
成功付款後,狀態會根據計畫的開始日期從
Pending轉換為Scheduled。 -
當計畫來到其開始日期時,狀態會變更為
Active。 -
對於具有多個不連續預留容量的計畫,狀態會在作用中期間之間還原為
Scheduled,直到下一個預留容量的開始日期為止。 -
在計畫的結束日期之後,狀態會變成
Expired。
一旦狀態為 Scheduled,您就可以針對 SageMaker 訓練任務或 HyperPod 叢集工作負載,利用計畫中預留的容量。
注意
-
與計畫相關聯的訓練任務會保持
Pending狀態,直到計畫變成Active為止。 -
對於針對運算容量使用訓練計畫的 HyperPod 叢集,一旦建立,執行個體群組狀態就會以
InService出現。
下列範例使用 AWS CLI 命令,依其名稱擷取訓練計劃的詳細資訊。
aws sagemaker describe-training-plan \ --training-plan-name "name"
此 JSON 文件是來自 SageMaker 訓練計畫 API 的範例回應。此回應提供已成功建立之訓練計畫的詳細資訊。
{ "AvailableInstanceCount": 2, "CurrencyCode": "USD", "DurationHours": 48, "DurationMinutes": 0, "EndTime": "2024-09-28T04:30:00-07:00", "InUseInstanceCount": 2, "ReservedCapacitySummaries": [ { "AvailabilityZone": "string", "DurationHours": 48, "DurationMinutes": 0, "EndTime": "2024-09-28T04:30:00-07:00", "InstanceType": "ml.p5.48xlarge", "ReservedCapacityArn": "arn:aws:sagemaker:us-east-1:123456789123:reserved-capacity/large-models-fine-tuning-rc1", "StartTime": "2024-09-26T04:30:00-07:00", "Status": "Scheduled", "TotalInstanceCount": 4, "UltraServerCount": 4, "UltraServerType": "ml.p6e-gb200.36xlarge" } ], "StartTime": "2024-09-26T04:30:00-07:00", "Status": "Scheduled", "StatusMessage": "Payment confirmed, training plan scheduled." "TargetResources": [ "training-job" ], "TotalInstanceCount": 4, "TotalUltraServerCount": 4, "TrainingPlanArn": "arn:aws:sagemaker:us-east-1:123456789123:training-plan/large-models-fine-tuning", "TrainingPlanName": "large-models-fine-tuning", "UpfrontFee": "xxxx.xx" }
下列各節定義 DescribeTrainingPlan API 操作的必要輸入請求參數。
必要參數
-
TrainingPlanName:您要描述的訓練計畫名稱。