SageMaker トレーニングジョブのトレーニングプラン使用率

トレーニングジョブの作成時に選択したプランを指定することで、トレーニングジョブに SageMaker トレーニングプランを使用できます。

注記

トレーニングジョブActiveで使用するトレーニングプランのステータスは Scheduledまたはである必要があります。

必要な容量がトレーニングジョブですぐに使用できない場合、ジョブは使用可能になるまで、または StoppingCondition が満たされるまで、またはジョブが容量Pendingの 2 日間のいずれか早い方まで待機します。停止条件が満たされると、ジョブは停止します。ジョブが 2 日間保留中の場合、ジョブはで終了しますInsufficientCapacityError。

重要

リザーブドキャパシティの終了プロセス： リザーブドキャパシティの終了時刻の 30 分前まで、すべてのリザーブドインスタンスにフルアクセスできます。リザーブドキャパシティーの残り時間が 30 分になると、SageMaker トレーニングプランはそのリザーブドキャパシティー内で実行中のインスタンスを終了するプロセスを開始します。

これらの終了によって進行状況が失われないように、トレーニングジョブのチェックポイントを設定することをお勧めします。

トレーニングジョブをチェックポイントする

SageMaker トレーニングジョブに SageMaker トレーニングプランを使用する場合は、トレーニングスクリプトにチェックポイントを実装してください。これにより、リザーブドキャパシティーの有効期限が切れる前にトレーニングの進行状況を保存できます。チェックポイントは、リザーブドキャパシティを使用する場合に特に重要です。これは、ジョブが 2 つのリザーブドキャパシティ間で中断された場合、またはトレーニングプランが終了日に達した場合に、最後に保存された時点からトレーニングを再開できるためです。

これを実現するには、 SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP環境変数を使用できます。この変数は、チェックポイントプロセスを開始するタイミングを決定するのに役立ちます。このロジックをトレーニングスクリプトに組み込むことで、モデルの進行状況が適切な間隔で保存されるようにします。

Python トレーニングスクリプトでこのチェックポイントロジックを実装する方法の例を次に示します。


import os
import time
from datetime import datetime, timedelta

def is_close_to_expiration(threshold_minutes=30):
    # Retrieve the expiration timestamp from the environment variable
    expiration_time_str = os.environ.get('SAGEMAKER_CURRENT_CAPACITY_BLOCK_EXPIRATION_TIMESTAMP', '0')
    
    # If the timestamp is not set (default '0'), return False
    if expiration_time_str == '0':
        return False
    
    # Convert the timestamp string to a datetime object
    expiration_time = datetime.fromtimestamp(int(expiration_time_str))
    
    # Calculate the time difference between now and the expiration time
    time_difference = expiration_time - datetime.now()
    
    # Return True if we're within the threshold time of expiration
    return time_difference < timedelta(minutes=threshold_minutes)

def start_checkpointing():
    # Placeholder function for checkpointing logic
    print("Starting checkpointing process...")
    # TODO: Implement actual checkpointing logic here
    # For example:
    # - Save model state
    # - Save optimizer state
    # - Save current epoch and iteration numbers
    # - Save any other relevant training state

# Main training loop
num_epochs = 100
final_checkpointing_done = False
for epoch in range(num_epochs):
    # TODO: Replace this with your actual training code
    # For example:
    # - Load a batch of data
    # - Forward pass
    # - Calculate loss
    # - Backward pass
    # - Update model parameters
    
    # Check if we're close to capacity expiration and haven't done final checkpointing
    if not final_checkpointing_done and is_close_to_expiration():
        start_checkpointing()
        final_checkpointing_done = True
    
    # Simulate some training time (remove this in actual implementation)
    time.sleep(1)
print("Training completed.")

注記

トレーニングジョブのプロビジョニングはFirst-In-First-Out (FIFO) の順序に従いますが、より大きなジョブを満たせない場合、以前に作成したより大きなクラスタージョブの前に、後で作成した小さなクラスタージョブに容量が割り当てられることがあります。
SageMaker トレーニングマネージドウォームプールは、SageMaker トレーニングプランと互換性があります。クラスターを再利用するには、同じクラスターを再利用するために、後続のCreateTrainingJobリクエストで同じTrainingPlanArn値を指定する必要があります。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トレーニングプランの詳細を表示する

コンソール UI を使用してトレーニングジョブを作成する