SageMaker AI 상태에 AWS Batch 서비스 작업 상태 매핑
SubmitServiceJob을 사용하여 작업을 SageMaker 작업 대기열에 제출하면 AWS Batch가 작업 수명주기를 관리하고 AWS Batch 작업 상태를 해당 SageMaker 훈련 작업 상태에 매핑합니다. SageMaker 훈련 작업과 같은 서비스 작업은 기존 컨테이너 작업과 다른 상태 수명 주기를 따릅니다. 서비스 작업은 대부분의 상태를 컨테이너 작업과 공유하지만 SCHEDULED 상태를 사용하며 특히 대상 서비스의 용량 부족 오류 처리 등을 위해 다양한 재시도 동작을 보여줍니다.
다음 표는 AWS Batch 작업 상태와 해당 SageMaker AI 상태/보조 상태를 보여줍니다.
| Batch 상태 | SageMaker AI 기본 상태 | SageMaker AI 보조 상태 | 설명 |
|---|---|---|---|
SUBMITTED |
N/A | N/A | 작업이 대기열에 제출되었으며 스케줄러 평가를 기다리는 중입니다. |
RUNNABLE |
N/A | N/A | 작업이 대기열에 있고 예약 준비가 되었습니다. 이 상태의 작업은 작업 대기열에 매핑된 서비스 환경에 충분한 리소스를 사용할 수 있게 되면 바로 시작됩니다. 사용 가능한 리소스가 충분하지 않으면 작업이 이 상태로 무기한 남아 있을 수 있습니다. |
SCHEDULED |
InProgress |
Pending |
서비스 작업이 SageMaker AI에 성공적으로 제출되었습니다. |
STARTING |
InProgress |
Downloading |
SageMaker 훈련 작업이 데이터 및 이미지를 다운로드하는 중입니다. 훈련 작업 용량이 획득되고 작업 초기화가 시작됩니다. |
RUNNING |
InProgress |
Training |
SageMaker 훈련 작업 실행 알고리즘 |
RUNNING |
InProgress |
Uploading |
SageMaker 훈련 작업이 훈련 완료 후 출력 아티팩트를 업로드하는 중입니다. |
SUCCEEDED |
Completed |
Completed |
SageMaker 훈련 작업이 성공적으로 완료되었습니다. 출력 아티팩트의 업로드가 완료되었습니다. |
FAILED |
Failed |
Failed |
SageMaker 훈련 작업에서 복구할 수 없는 오류가 발생했습니다. |
FAILED |
Stopped |
Stopped |
StopTrainingJob을 사용하여 SageMaker 훈련 작업을 수동으로 중지했습니다. |