의 서비스 작업 재시도 전략 AWS Batch - AWS Batch

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

의 서비스 작업 재시도 전략 AWS Batch

서비스 작업 재시도 전략을 사용하면 AWS Batch 가 특정 조건에서 실패한 서비스 작업을 자동으로 재시도할 수 있습니다.

서비스 작업은 몇 가지 이유로 여러 번 시도해야 할 수 있습니다.

  • 일시적인 서비스 문제: 내부 서비스 오류, 스로틀링 또는 일시적인 중단으로 인해 제출 또는 실행 중에 작업이 실패할 수 있습니다.

  • 훈련 초기화 실패: 이미지 가져오기 문제 또는 초기화 오류와 같은 작업 시작 중 문제는 재시도를 통해 해결될 수 있습니다.

적절한 재시도 전략을 구성하면 특히 장기 실행 훈련 워크로드의 경우 작업 성공률을 높이고 수동 개입의 필요성을 줄일 수 있습니다.

참고

서비스 작업은 구성된 재시도를 사용하지 않고도 용량 부족 오류와 같은 특정 실패 유형의 경우 자동으로 재시도를 실행합니다. 재시도 전략은 주로 알고리즘 오류 또는 서비스 문제와 같은 다른 유형의 실패를 다룹니다.

재시도 전략 구성

서비스 작업 재시도 전략은 단순 재시도 횟수와 조건부 재시도 로직을 모두 지원하는 ServiceJobRetryStrategy를 사용하여 구성됩니다.

재시도 구성

가장 간단한 재시도 전략은 서비스 작업이 실패할 경우 수행해야 하는 재시도 횟수를 지정합니다.

{ "retryStrategy": { "attempts": 3 } }

이 구성을 사용하면 서비스 작업이 실패할 경우 최대 3회까지 재시도할 수 있습니다.

중요

attempts 값은 초기 시도를 포함하여 작업을 RUNNABLE 상태에 배치할 수 있는 총 횟수를 나타냅니다. 값이 3이면 작업이 처음에 한 번 시도된 다음 실패할 경우 최대 2회 더 시도됩니다.

evaluateOnExit를 사용하여 구성 재시도

evaluateOnExit 파라미터를 사용하여 작업을 재시도하거나 실패하도록 허용하는 조건을 지정할 수 있습니다. 이는 다양한 유형의 장애에 서로 다른 처리가 필요한 경우에 유용합니다.

evaluateOnExit 배열은 최대 5개의 재시도 전략을 포함할 수 있으며, 각 전략은 상태 사유를 기반으로 작업(RETRY 또는 EXIT)과 조건을 지정합니다.

{ "retryStrategy": { "attempts": 5, "evaluateOnExit": [ { "action": "RETRY", "onStatusReason": "Received status from SageMaker: InternalServerError*" }, { "action": "EXIT", "onStatusReason": "Received status from SageMaker: ValidationException*" }, { "action": "EXIT", "onStatusReason": "*" } ] } }

이 구성은 다음과 같습니다.

  • SageMaker AI 내부 서버 오류로 인해 실패한 작업에 대해 재시도 실행

  • 검증 예외(다시 시도해도 해결되지 않는 클라이언트 오류)가 발생하는 작업은 즉시 실패

  • 다른 모든 장애 유형에 대해 종료 처리하는 포괄적 규칙 포함

상태 사유 패턴 일치

onStatusReason 파라미터는 최대 512자의 패턴 일치를 지원합니다. 패턴은 와일드카드(*)를 사용하고 SageMaker AI에서 반환한 상태 사유에 일치시킬 수 있습니다.

서비스 작업의 경우 SageMaker AI의 상태 메시지 앞에 "Received status from SageMaker: " 접두사가 붙어 AWS Batch생성된 메시지와 구분합니다. 일반적인 패턴은 다음과 같습니다.

  • Received status from SageMaker: InternalServerError* - 내부 서비스 오류 일치

  • Received status from SageMaker: ValidationException* - 클라이언트 검증 오류 일치

  • Received status from SageMaker: ResourceLimitExceeded* - 리소스 제한 오류 일치

  • *CapacityError* - 용량 관련 실패 일치

작은 정보

특정 패턴 일치를 사용하면 다양한 오류 유형을 적절하게 처리할 수 있습니다. 예를 들어 내부 서버 오류는 재시도하지만 작업 파라미터 문제를 나타내는 검증 오류는 즉시 실패 처리할 수 있습니다.