기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
작업 대기열 상태 보기
작업 대기열을 생성하고 작업을 제출한 후에는 진행 상황을 모니터링할 수 있어야 합니다. 작업 세부 정보 페이지를 사용하여 작업 대기열을 검토하고, 관리하고, 모니터링할 수 있습니다.
작업 대기열 정보 보기
AWS Batch 콘솔에서 탐색 창에서 작업 대기열을 선택하고 원하는 작업 대기열을 선택하여 세부 정보를 봅니다. 이 페이지에서 작업 대기열을 검토 및 관리하고 작업 대기열 스냅샷, 작업 상태 제한, 환경 순서, 태그, 작업 대기열 JSON 코드 등과 같은 대기열 작업에 대한 추가 정보를 볼 수 있습니다.
작업 대기열 세부 정보
이 섹션에서는 작업 대기열에 대한 개요와 유지 관리 옵션을 제공합니다. 또한 이 섹션에서 Amazon 리소스 이름(ARN)을 찾을 수 있습니다.
를 통해이 정보를 찾으려면 작업 대기열 이름 또는 해당 ARN과 함께 DescribeJobQueues 작업을 AWS Command Line Interface사용합니다.
작업 대기열 스냅샷
이 섹션에서는 대기열에 있는 처음 100개의 RUNNABLE 작업에 대한 정적 목록을 제공합니다. 검색 필드를 사용하면 결과 섹션의 모든 열에서 정보를 검색하여 목록의 범위를 좁힐 수 있습니다. 스냅샷 결과 영역의 작업은 작업 대기열의 실행 전략에 따라 정렬됩니다. 선입선출(FIFO) 작업 대기열의 경우 작업 순서는 제출 시간을 기준으로 합니다. 공정 공유 예약 작업 대기열의 경우 작업 순서는 작업 우선 순위 및 공유 사용량을 기반으로 합니다.
결과는 작업 대기열의 스냅샷이므로 결과 목록이 자동으로 업데이트되지 않습니다. 목록을 업데이트하려면 섹션 상단에 있는 새로 고침을 선택합니다. 작업의 이름 하이퍼링크를 선택하여 작업 세부 정보로 이동하고 작업의 상태 및 기타 관련 정보를 확인합니다.
를 통해이 정보를 찾으려면 작업 대기열 이름 또는 해당 ARN과 함께 GetJobQueueSnapshot 작업을 AWS CLI사용합니다.
aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq
작업 상태 제한
이 탭을 사용하여 작업이 취소되기 전에 RUNNABLE 상태를 유지할 수 있는 시간과 관련된 구성 정보를 검토합니다.
를 통해이 정보를 찾으려면 작업 대기열 이름 또는 해당 ARN과 함께 DescribeJobQueues 작업을 AWS CLI사용합니다.
환경 순서
작업 대기열이 여러 환경에서 실행되는 경우 이 탭은 작업 대기열 순서와 개요를 제공합니다.
를 통해이 정보를 찾으려면 작업 대기열 이름 또는 해당 ARN과 함께 DescribeJobQueues 작업을 AWS CLI사용합니다.
Tags
이 탭을 사용하여 이 작업 대기열과 연결된 태그를 검토하고 관리합니다.
JSON
이 탭을 사용하여 이 작업 대기열과 연결된 JSON 코드를 복사합니다. 그런 다음 AWS CloudFormation 템플릿 및 스크립트에 JSON AWS CLI 을 재사용할 수 있습니다.
서비스 작업 모니터링
여러 AWS Batch 명령을 사용하여 작업 대기열의 서비스 작업 상태를 모니터링할 수 있습니다. 서비스 작업은 SageMaker 훈련과 같은 AWS 서비스에서 실행되는 작업으로, 대상 서비스가 작업 실행을 처리하는 동안는 예약 및 대기열 기능을 AWS Batch 제공합니다.
상태별 서비스 작업 나열
ListServiceJobs 작업을 사용하여 상태별로 필터링된 대기열의 서비스 작업을 봅니다. 서비스 작업의 상태는 다음과 같을 수 있습니다.
-
SUBMITTED- 작업이 제출되었지만 아직 처리되지 않았습니다. -
PENDING- 작업이 보류 중이고 리소스를 기다리고 있습니다. -
RUNNABLE- 작업을 실행하고 대기열에서 대기할 준비가 되었습니다. -
STARTING- 작업이 시작 중입니다. -
RUNNING- 작업이 현재 실행 중입니다. -
SCHEDULED- 작업이 대상 서비스에 제출되었지만 아직 실행되지 않음 -
SUCCEEDED- 작업이 성공적으로 완료되었습니다. -
FAILED- 작업을 완료하지 못했습니다.
대기열에서 실행 중인 작업 보기:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNING
대기열에서 대기 중인 작업 보기:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNABLE
SageMaker에 제출되었지만 아직 실행되지 않은 작업을 봅니다.
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status SCHEDULED
성공한 모든 작업 보기:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status SUCCEEDED
문제 해결을 위해 실패한 작업 보기:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status FAILED
서비스 작업 필터링
패턴 일치를 사용하여 이름별로 서비스 작업을 필터링할 수 있습니다. 필터 값이 별표(*)로 끝나는 경우 '*' 앞의 문자열로 시작하는 모든 작업 이름과 일치합니다.
이름이 "교육"으로 시작하는 작업을 찾습니다.
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --filters name=JOB_NAME,values=training*
특정 이름의 작업을 찾습니다.
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --filters name=JOB_NAME,values=my-training-job-1,my-training-job-2
상태 필터와 이름 필터를 결합합니다.
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNING \ --filters name=JOB_NAME,values=production*
대규모 결과 집합 처리
서비스 작업이 많은 경우 페이지 매김을 사용하여 결과를 효과적으로 관리합니다.
반환되는 결과 수를 제한합니다.
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --max-results 10
다음 토큰을 사용하여 추가 결과를 가져옵니다.
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --max-results 10 \ --next-tokeneyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...
자세한 서비스 작업 정보 가져오기
DescribeServiceJob 작업을 사용하여 현재 상태, 서비스 리소스 식별자 및 자세한 시도 정보를 포함하여 특정 서비스 작업에 대한 포괄적인 정보를 가져옵니다.
특정 작업에 대한 세부 정보를 봅니다.
aws batch describe-service-job \ --job-ida4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d
이 명령은 다음을 포함하여 작업에 대한 포괄적인 정보를 반환합니다.
-
작업 ARN 및 현재 상태
-
서비스 리소스 식별자(예: SageMaker 훈련 작업 ARN)
-
우선 순위 및 재시도 구성 예약
-
원래 서비스 파라미터를 포함하는 서비스 요청 페이로드
-
시작 및 중지 시간이 포함된 자세한 시도 정보
-
대상 서비스의 상태 메시지
SageMaker 훈련 작업 모니터링
를 통해 SageMaker 훈련 작업을 모니터링할 때 AWS Batch 작업 정보와 기본 SageMaker 훈련 작업 세부 정보에 모두 액세스할 AWS Batch수 있습니다.
작업 세부 정보의 서비스 리소스 식별자에는 SageMaker 훈련 작업 ARN이 포함됩니다.
{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }
이 ARN을 사용하여 SageMaker에서 직접 추가 세부 정보를 가져올 수 있습니다.
aws sagemaker describe-training-job \ --training-job-namemy-training-job
AWS Batch 상태와 SageMaker 훈련 작업 상태를 모두 확인하여 작업 진행 상황을 모니터링합니다. AWS Batch 작업 상태는 전체 작업 수명 주기를 표시하는 반면, SageMaker 훈련 작업 상태는 훈련 프로세스에 대한 서비스별 세부 정보를 제공합니다.
서비스 작업 종료
TerminateServiceJob 작업을 사용하여 실행 중인 서비스 작업을 중지합니다.
특정 서비스 작업을 종료합니다.
aws batch terminate-service-job \ --job-ida4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d\ --reason "Job terminated by user request"
서비스 작업을 종료하면가 작업을 AWS Batch 중지하고 대상 서비스에 알립니다. SageMaker 훈련 작업의 경우 SageMaker AI에서도 훈련 작업이 중지됩니다.