Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurazione di una policy di ripetizione
Sebbene SageMaker Pipelines offra un modo affidabile e automatizzato per orchestrare i flussi di lavoro di machine learning, potresti riscontrare errori durante la loro esecuzione. Per gestire al meglio questi scenari e migliorare l’affidabilità delle pipeline, puoi configurare policy di ripetizione che definiscono come e quando ripetere automaticamente determinate fasi in seguito a un’eccezione. La policy di ripetizione consente di specificare i tipi di eccezioni per i tentativi, il numero massimo di tentativi, l’intervallo tra i tentativi e la frequenza di backoff per allungare gli intervalli tra i tentativi. La sezione seguente fornisce esempi di come configurare una politica di riprova per una fase di formazione nella pipeline, sia in JSON che utilizzando Python SageMaker SDK.
L'esempio seguente mostra una fase di addestramento con una policy di ripetizione.
{ "Steps": [ { "Name": "MyTrainingStep", "Type": "Training", "RetryPolicies": [ { "ExceptionType": [ "SageMaker.JOB_INTERNAL_ERROR", "SageMaker.CAPACITY_ERROR" ], "IntervalSeconds":1, "BackoffRate":2, "MaxAttempts":5} ] } ] }
Di seguito è riportato un esempio di come creare una TrainingStep in SDK per Python (Boto3) con una policy di ripetizione.
from sagemaker.workflow.retry import ( StepRetryPolicy, StepExceptionTypeEnum, SageMakerJobExceptionTypeEnum, SageMakerJobStepRetryPolicy ) step_train = TrainingStep( name="MyTrainingStep", xxx, retry_policies=[ // override the default StepRetryPolicy( exception_types=[StepExceptionTypeEnum.SERVICE_FAULT,StepExceptionTypeEnum.THROTTLING], expire_after_mins=5, interval_seconds=10, backoff_rate=2.0), // retry when resource limit quota gets exceeded SageMakerJobStepRetryPolicy( exception_types=[SageMakerJobExceptionTypeEnum.RESOURCE_LIMIT], expire_after_mins=120, interval_seconds=60, backoff_rate=2.0), // retry when job failed due to transient error or EC2 ICE. SageMakerJobStepRetryPolicy( failure_reason_types=[SageMakerJobExceptionTypeEnum.INTERNAL_ERROR,SageMakerJobExceptionTypeEnum.CAPACITY_ERROR, ], max_attempts=10, interval_seconds=30, backoff_rate=2.0) ] )
Per ulteriori informazioni sulla configurazione del comportamento dei tentativi per determinati tipi di passaggi, consulta Amazon SageMaker Pipelines - Retry Policy nella