기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Batch 대기열의 서비스 작업 모니터링
list-service-jobs 및 get-job-queue-snapshot을 사용하여 SageMaker 훈련 작업 대기열의 작업 상태를 모니터링할 수 있습니다.
대기열에서 실행 중인 작업 보기:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNING
대기열에서 대기 중인 작업을 봅니다.
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNABLE
SageMaker에 제출되었지만 아직 실행되지 않은 작업 보기:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status SCHEDULED
대기열 앞에 있는 작업의 스냅샷을 가져옵니다.
aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq
이 명령은 대기열에서 예정된 서비스 작업의 순서를 보여줍니다.
자세한 서비스 작업 정보 가져오기
DescribeServiceJob 작업을 사용하여 현재 상태, 서비스 리소스 식별자 및 자세한 시도 정보를 포함하여 특정 서비스 작업에 대한 포괄적인 정보를 가져옵니다.
특정 작업에 대한 세부 정보를 봅니다.
aws batch describe-service-job \ --job-ida4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d
이 명령은 다음을 포함하여 작업에 대한 포괄적인 정보를 반환합니다.
-
작업 ARN 및 현재 상태
-
서비스 리소스 식별자(예: SageMaker 훈련 작업 ARN)
-
예약 우선 순위 및 재시도 구성
-
원래 서비스 파라미터를 포함하는 서비스 요청 페이로드
-
시작 및 중지 시간이 포함된 자세한 시도 정보
-
대상 서비스의 상태 메시지
SageMaker 훈련 작업 모니터링
를 통해 SageMaker 훈련 작업을 모니터링할 때 AWS Batch 작업 정보와 기본 SageMaker 훈련 작업 세부 정보 모두에 액세스할 AWS Batch수 있습니다.
작업 세부 정보의 서비스 리소스 식별자에는 SageMaker 훈련 작업 ARN이 포함됩니다.
{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }
이 ARN을 사용하여 SageMaker에서 추가 세부 정보를 직접 가져올 수 있습니다.
aws sagemaker describe-training-job \ --training-job-namemy-training-job
AWS Batch 상태와 SageMaker 훈련 작업 상태를 모두 확인하여 작업 진행 상황을 모니터링합니다. AWS Batch 작업 상태에는 전체 작업 수명 주기를 표시하는 반면, SageMaker 훈련 작업 상태는 훈련 프로세스에 대한 서비스별 세부 정보를 제공합니다.