AWS Batch 서비스 작업 상태를 SageMaker AI 상태로 매핑 - AWS Batch

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Batch 서비스 작업 상태를 SageMaker AI 상태로 매핑

SubmitServiceJob을 사용하여 SageMaker 작업 대기열에 작업을 제출하면는 작업 수명 주기를 AWS Batch 관리하고 AWS Batch 작업 상태를 동등한 SageMaker 훈련 작업 상태로 매핑합니다. SageMaker 훈련 작업과 같은 서비스 작업은 기존 컨테이너 작업과 다른 상태 수명 주기를 따릅니다. 서비스 작업은 대부분의 상태를 컨테이너 작업과 공유하지만 특히 대상 서비스의 용량 부족 오류를 처리하기 위해 SCHEDULED 상태를 도입하고 다양한 재시도 동작을 보여줍니다.

다음 표에는 AWS Batch 작업 상태와 해당 SageMaker 상태/SecondaryStatus가 나와 있습니다.

배치 상태 SageMaker AI 기본 상태 SageMaker AI 보조 상태 설명
SUBMITTED N/A N/A 스케줄러 평가를 기다리는 동안 대기열에 제출된 작업입니다.
RUNNABLE N/A N/A 작업이 대기열에 있고 예약할 준비가 되었습니다. 이 상태의 작업은 서비스 환경에서 충분한 리소스를 사용할 수 있는 즉시 시작됩니다. 충분한 리소스를 사용할 수 없는 경우 작업은이 상태로 무기한 유지될 수 있습니다.
SCHEDULED InProgress Pending 서비스 작업이 SageMaker AI에 성공적으로 제출됨
STARTING InProgress Downloading 데이터 및 이미지를 다운로드하는 SageMaker 훈련 작업입니다. 훈련 작업 용량이 획득되고 작업 초기화가 시작됩니다.
RUNNING InProgress Training SageMaker 훈련 작업 실행 알고리즘
RUNNING InProgress Uploading 훈련 완료 후 출력 아티팩트를 업로드하는 SageMaker 훈련 작업
SUCCEEDED Completed Completed SageMaker 훈련 작업이 성공적으로 완료되었습니다. 출력 아티팩트 업로드가 완료되었습니다.
FAILED Failed Failed SageMaker 훈련 작업에서 복구할 수 없는 오류가 발생했습니다.
FAILED Stopped Stopped 를 사용하여 SageMaker 훈련 작업이 수동으로 중지되었습니다StopTrainingJob.