翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker トレーニングジョブのトレーニングプラン使用率
トレーニングジョブの作成時に選択したプランを指定することで、トレーニングジョブに SageMaker トレーニングプランを使用できます。
注記
トレーニングジョブActive
で使用するトレーニングプランのステータスは Scheduled
または である必要があります。
必要な容量がトレーニングジョブですぐに使用できない場合、ジョブは使用可能になるまで、または StoppingCondition
が満たされるまで、またはジョブが容量Pending
の 2 日間のいずれか早い方まで待機します。停止条件が満たされると、ジョブは停止します。ジョブが 2 日間保留中の場合、ジョブは で終了しますInsufficientCapacityError
。
重要
リザーブドキャパシティの終了プロセス: リザーブドキャパシティの終了時刻の 30 分前まで、すべてのリザーブドインスタンスにフルアクセスできます。リザーブドキャパシティーの残り時間が 30 分になると、SageMaker トレーニングプランはそのリザーブドキャパシティー内で実行中のインスタンスを終了するプロセスを開始します。
これらの終了によって進行状況が失われないように、トレーニングジョブのチェックポイントを設定することをお勧めします。
トレーニングジョブをチェックポイントする
SageMaker トレーニングジョブに SageMaker トレーニングプランを使用する場合は、トレーニングスクリプトにチェックポイントを実装してください。これにより、リザーブドキャパシティーの有効期限が切れる前にトレーニングの進行状況を保存できます。チェックポイントは、リザーブドキャパシティを使用する場合に特に重要です。これは、ジョブが 2 つのリザーブドキャパシティ間で中断された場合、またはトレーニングプランが終了日に達した場合に、最後に保存された時点からトレーニングを再開できるためです。
これを実現するには、 SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP
環境変数を使用できます。この変数は、チェックポイントプロセスを開始するタイミングを決定するのに役立ちます。このロジックをトレーニングスクリプトに組み込むことで、モデルの進行状況が適切な間隔で保存されるようにします。
Python トレーニングスクリプトでこのチェックポイントロジックを実装する方法の例を次に示します。
import os import time from datetime import datetime, timedelta def is_close_to_expiration(threshold_minutes=30): # Retrieve the expiration timestamp from the environment variable expiration_time_str = os.environ.get('SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP', '0') # If the timestamp is not set (default '0'), return False if expiration_time_str == '0': return False # Convert the timestamp string to a datetime object expiration_time = datetime.fromtimestamp(int(expiration_time_str)) # Calculate the time difference between now and the expiration time time_difference = expiration_time - datetime.now() # Return True if we're within the threshold time of expiration return time_difference < timedelta(minutes=threshold_minutes) def start_checkpointing(): # Placeholder function for checkpointing logic print("Starting checkpointing process...") # TODO: Implement actual checkpointing logic here # For example: # - Save model state # - Save optimizer state # - Save current epoch and iteration numbers # - Save any other relevant training state # Main training loop num_epochs = 100 final_checkpointing_done = False for epoch in range(num_epochs): # TODO: Replace this with your actual training code # For example: # - Load a batch of data # - Forward pass # - Calculate loss # - Backward pass # - Update model parameters # Check if we're close to capacity expiration and haven't done final checkpointing if not final_checkpointing_done and is_close_to_expiration(): start_checkpointing() final_checkpointing_done = True # Simulate some training time (remove this in actual implementation) time.sleep(1) print("Training completed.")
注記
-
トレーニングジョブのプロビジョニングはFirst-In-First-Out (FIFO) の順序に従いますが、より大きなジョブを満たせない場合、以前に作成したより大きなクラスタージョブの前に、後で作成した小さなクラスタージョブに容量が割り当てられることがあります。
-
SageMaker トレーニングマネージドウォームプールは、SageMaker トレーニングプランと互換性があります。クラスターを再利用するには、同じクラスターを再利用するために、後続の
CreateTrainingJob
リクエストで同じTrainingPlanArn
値を指定する必要があります。