AWS Batch의 서비스 환경이란?
서비스 환경은 AWS Batch를 SageMaker AI와 통합하는 데 필요한 구성 파라미터를 포함하는 AWS Batch 리소스입니다. 서비스 환경은 AWS Batch가 AWS Batch의 대기열, 예약 및 우선 순위 관리 기능을 제공하면서 SageMaker 훈련 작업을 제출하고 관리할 수 있게 해 줍니다.
서비스 환경은 데이터 과학 팀이 기계 학습 워크로드를 관리할 때 직면하는 일반적인 문제를 해결합니다. 조직은 우발적인 과다 지출을 방지하거나, 예산 제약을 충족하거나, 예약 인스턴스 비용을 절감하거나, 워크로드에 특정 인스턴스 유형을 사용하기 위해 모델 훈련에 사용할 수 있는 인스턴스 수를 종종 제한합니다. 그러나 데이터 과학자는 할당된 인스턴스에서 가능한 것보다 더 많은 워크로드를 동시에 실행하기를 원할 수 있으며, 이 경우 어느 워크로드가 언제 실행될지를 결정하기 위해 수동 조정이 필요합니다.
이 조정 문제는 데이터 과학자가 몇 명뿐인 팀부터 대규모 운영에 이르기까지 모든 규모의 조직에 영향을 미칩니다. 조직이 성장함에 따라 복잡성이 증가하여 워크로드 조정을 관리하는 데 더 많은 시간이 필요하고 종종 인프라 관리자의 개입이 필요해집니다. 이러한 수동 작업은 시간을 낭비하고 인스턴스 효율성을 줄여 고객에게 실제 비용을 초래합니다.
서비스 환경에서는 데이터 과학자와 ML 엔지니어가 우선순위가 있는 SageMaker 훈련 작업을 구성 가능한 대기열에 제출하여 리소스를 사용할 수 있게 되는 즉시 개입 없이 워크로드가 자동으로 실행되도록 할 수 있습니다. 이 통합은 AWS Batch의 광범위한 대기열 및 예약 기능을 활용하여 고객이 조직의 목표에 맞게 대기열 및 예약 정책을 사용자 지정할 수 있게 해 줍니다.
서비스 환경이 다른 AWS Batch 구성 요소와 작동하는 방식
서비스 환경은 다른 AWS Batch 구성 요소와 통합되어 SageMaker 훈련 작업 대기열을 활성화합니다.
-
작업 대기열 - 서비스 환경은 작업 대기열과 연결되어 대기열이 SageMaker 훈련 작업에 대한 서비스 작업을 처리할 수 있도록 해 줍니다.
-
서비스 작업 - 서비스 환경과 연결된 대기열에 서비스 작업을 제출하면 AWS Batch는 환경의 구성을 사용하여 해당 SageMaker 훈련 작업을 제출합니다.
-
예약 정책 - 서비스 환경은 AWS Batch 예약 정책과 함께 작동하여 SageMaker 훈련 작업의 우선 순위를 지정하고 실행 순서를 관리합니다.
이 통합을 통해 SageMaker 훈련 작업의 전체 기능과 유연성을 유지하면서 AWS Batch의 성숙한 대기열 및 예약 기능을 활용할 수 있습니다.
서비스 환경 모범 사례
서비스 환경은 대규모로 SageMaker 훈련 작업을 관리할 수 있는 기능을 제공합니다. 이러한 모범 사례를 따르면 기계 학습 워크플로에 영향을 미칠 수 있는 일반적인 구성 문제를 방지하면서 비용, 성능 및 운영 효율성을 최적화하는 데 도움이 됩니다.
서비스 환경 용량을 계획할 때는 SageMaker 훈련 작업 대기열에 적용되는 특정 할당량 및 제한을 고려하세요. 각 서비스 환경에는 동시에 실행할 수 있는 SageMaker 훈련 작업 수를 직접 제어하는, 인스턴스 수로 표현된 최대 용량 제한이 있습니다. 이러한 제한을 이해하면 리소스 경합을 방지하는 데 도움이 되고 예측 가능한 작업 실행 시간을 보장합니다.
최적의 서비스 환경 성능은 SageMaker 훈련 작업 예약의 고유한 특성을 이해하는 데 달려 있습니다. 기존의 컨테이너화된 작업과 달리 서비스 작업은 SageMaker AI가 필요한 훈련 인스턴스를 획득하고 프로비저닝하는 동안 SCHEDULED 상태를 거치면서 전환됩니다. 이는 작업 시작 시간이 인스턴스 가용성 및 리전 용량에 따라 크게 달라질 수 있음을 의미합니다.
중요
서비스 환경에는 SageMaker 훈련 워크로드의 규모를 조정하는 능력에 영향을 미칠 수 있는 특정 할당량이 있습니다. 계정당 최대 50개의 서비스 환경을 생성할 수 있으며, 각 작업 대기열은 한 개의 연결된 서비스 환경만 지원합니다. 또한 개별 작업에 대한 서비스 요청 페이로드는 10KiB로 제한되며 SubmitServiceJob API는 계정당 초당 5개의 트랜잭션으로 제한됩니다. 용량 계획 중에 이러한 제한을 이해하면 예상치 못한 규모 조정 제약을 방지할 수 있습니다.
서비스 환경을 효과적으로 모니터링하려면 AWS Batch 및 SageMaker AI 서비스 지표 모두에 주의를 기울여야 합니다. 작업 상태 전환은 시스템 성능에 대한 소중한 정보를 제공합니다. 특히 SCHEDULED 상태에서 소요된 시간은 용량 가용성 패턴을 나타냅니다. 컴퓨팅 환경과 유사한 자체 수명 주기 상태를 유지하는 서비스 환경은 CREATING, VALID, INVALID 및 DELETING 상태를 거치며, 이러한 상태는 운영 상태 확인을 위해 모니터링되어야 합니다. 성숙한 모니터링 방식을 가진 조직은 일반적으로 대기열 깊이, 작업 완료율 및 인스턴스 사용률 패턴을 추적하여 시간 경과에 따라 서비스 환경 구성을 최적화합니다.