의 서비스 작업 재시도 전략 AWS Batch - AWS Batch

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

의 서비스 작업 재시도 전략 AWS Batch

서비스 작업 재시도 전략을 사용하면 AWS Batch 가 특정 조건에서 실패한 서비스 작업을 자동으로 재시도할 수 있습니다.

서비스 작업은 여러 가지 이유로 여러 번 시도해야 할 수 있습니다.

  • 임시 서비스 문제: 내부 서비스 오류, 제한 또는 일시적인 중단으로 인해 제출 또는 실행 중에 작업이 실패할 수 있습니다.

  • 훈련 초기화 실패: 이미지 가져오기 문제 또는 초기화 오류와 같은 작업 시작 중 문제는 재시도 시 해결될 수 있습니다.

적절한 재시도 전략을 구성하면 특히 장기 실행 훈련 워크로드의 경우 작업 성공률을 높이고 수동 개입의 필요성을 줄일 수 있습니다.

참고

서비스 작업은 구성된 재시도를 사용하지 않고 용량 부족 오류와 같은 특정 유형의 실패를 자동으로 재시도합니다. 재시도 전략은 주로 알고리즘 오류 또는 서비스 문제와 같은 다른 유형의 장애를 처리합니다.

재시도 전략 구성

서비스 작업 재시도 전략은 단순 재시도 횟수와 조건부 재시도 로직을 모두 지원하는 ServiceJobRetryStrategy를 사용하여 구성됩니다.

재시도 구성

가장 간단한 재시도 전략은 서비스 작업이 실패할 경우 수행해야 하는 재시도 횟수를 지정합니다.

{ "retryStrategy": { "attempts": 3 } }

이 구성을 사용하면 서비스 작업이 실패할 경우 최대 3회까지 재시도할 수 있습니다.

중요

attempts 값은 초기 시도를 포함하여 작업을 RUNNABLE 상태에 배치할 수 있는 총 횟수를 나타냅니다. 값이 3이면 처음에는 작업을 한 번 시도한 다음 실패할 경우 최대 2번 더 시도합니다.

evaluateOnExit을 사용하여 구성 재시도

evaluateOnExit 파라미터를 사용하여 작업을 재시도하거나 실패하도록 허용해야 하는 조건을 지정할 수 있습니다. 이는 다양한 유형의 장애에 다른 처리가 필요한 경우에 유용합니다.

evaluateOnExit 배열에는 각각 상태 이유에 따라 작업(RETRY 또는 EXIT) 및 조건을 지정하는 최대 5개의 재시도 전략이 포함될 수 있습니다.

{ "retryStrategy": { "attempts": 5, "evaluateOnExit": [ { "action": "RETRY", "onStatusReason": "Received status from SageMaker: InternalServerError*" }, { "action": "EXIT", "onStatusReason": "Received status from SageMaker: ValidationException*" }, { "action": "EXIT", "onStatusReason": "*" } ] } }

이 구성은 다음과 같습니다.

  • SageMaker AI 내부 서버 오류로 인해 실패한 작업 재시도

  • 검증 예외가 발생하는 작업에 즉시 실패(다시 시도해도 해결되지 않는 클라이언트 오류)

  • 다른 장애 유형에 대해 종료할 catch-all 규칙 포함

상태 이유 패턴 일치

onStatusReason 파라미터는 최대 512자의 패턴 일치를 지원합니다. 패턴은 와일드카드(*)를 사용하고 SageMaker AI에서 반환한 상태 이유와 일치할 수 있습니다.

서비스 작업의 경우 SageMaker AI의 상태 메시지에는 "SageMaker에서 수신된 상태: " 접두사가 붙어 AWS Batch생성된 메시지와 구분됩니다. 일반적인 패턴은 다음과 같습니다.

  • Received status from SageMaker: InternalServerError* - 내부 서비스 오류 일치

  • Received status from SageMaker: ValidationException* - 클라이언트 검증 오류 일치

  • Received status from SageMaker: ResourceLimitExceeded* - 리소스 제한 오류 일치

  • *CapacityError* - 용량 관련 실패 일치

작은 정보

특정 패턴 일치를 사용하여 다양한 오류 유형을 적절하게 처리합니다. 예를 들어 내부 서버 오류를 재시도하지만 작업 파라미터 문제를 나타내는 검증 오류는 즉시 실패합니다.