

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 용 서비스 환경 AWS Batch
<a name="service-environments"></a>

서비스 환경을 사용하면 AWS Batch 를 SageMaker AI와 통합할 수 있습니다. 서비스 환경에는의 대기열, 예약 및 우선 순위 관리 기능을 제공하면서 SageMaker 훈련 작업을 제출하고 관리하는 AWS Batch 데 필요한 SageMaker AI별 구성 파라미터 AWS Batch가 포함되어 있습니다.

서비스 환경에서는 데이터 과학자와 ML 엔지니어가 우선 순위가 있는 SageMaker 훈련 작업을 서비스 작업 대기열에 제출할 수 있습니다. 이 통합은 ML 워크로드를 수동으로 조정할 필요를 제거하고, 우발적인 과다 지출을 방지하고, 조직의 기계 학습 워크플로 전반에서 리소스 사용률을 개선합니다.

**Topics**
+ [

# 의 서비스 환경이란? AWS Batch
](what-are-service-environments.md)
+ [

# 의 서비스 환경 상태 및 수명 주기 AWS Batch
](service-environment-states.md)
+ [

# 에서 서비스 환경 생성 AWS Batch
](create-service-environments.md)
+ [

# 에서 서비스 환경 업데이트 AWS Batch
](updating-service-environments.md)
+ [

# 에서 서비스 환경 삭제 AWS Batch
](deleting-service-environments.md)

# 의 서비스 환경이란? AWS Batch
<a name="what-are-service-environments"></a>

서비스 환경은 SageMaker AI AWS Batch 와 통합하는 데 필요한 구성 파라미터를 포함하는 AWS Batch 리소스입니다. 서비스 환경을 사용하면 AWS Batch 가 SageMaker 훈련 작업을 제출하고 관리하는 동시에 AWS Batch의 대기열, 일정 및 우선 순위 관리 기능을 제공할 수 있습니다.

서비스 환경은 데이터 과학 팀이 기계 학습 워크로드를 관리할 때 직면하는 일반적인 문제를 해결합니다. 조직은 우발적인 과다 지출을 방지하거나, 예산 제약을 충족하거나, 예약 인스턴스 비용을 절감하거나, 워크로드에 특정 인스턴스 유형을 사용하기 위해 모델 훈련에 사용할 수 있는 인스턴스 수를 종종 제한합니다. 그러나 데이터 과학자는 할당된 인스턴스에서 가능한 것보다 더 많은 워크로드를 동시에 실행하기를 원할 수 있으며, 이 경우 어느 워크로드가 언제 실행될지를 결정하기 위해 수동 조정이 필요합니다.

이 조정 문제는 데이터 과학자가 몇 명뿐인 팀부터 대규모 운영에 이르기까지 모든 규모의 조직에 영향을 미칩니다. 조직이 성장함에 따라 복잡성이 증가하여 워크로드 조정을 관리하는 데 더 많은 시간이 필요하고 종종 인프라 관리자의 개입이 필요해집니다. 이러한 수동 작업은 시간을 낭비하고 인스턴스 효율성을 줄여 고객에게 실제 비용을 초래합니다.

서비스 환경에서는 데이터 과학자와 ML 엔지니어가 우선순위가 있는 SageMaker 훈련 작업을 구성 가능한 대기열에 제출하여 리소스를 사용할 수 있게 되는 즉시 개입 없이 워크로드가 자동으로 실행되도록 할 수 있습니다. 이 통합은 AWS Batch의 광범위한 대기열 및 예약 기능을 활용하여 고객이 조직의 목표에 맞게 대기열 및 예약 정책을 사용자 지정할 수 있도록 합니다.

## 서비스 환경이 다른 AWS Batch 구성 요소와 작동하는 방식
<a name="service-environment-integration"></a>

서비스 환경은 다른 AWS Batch 구성 요소와 통합되어 SageMaker 훈련 작업 대기열을 활성화합니다.
+ **작업 대기열** - 서비스 환경은 작업 대기열과 연결되어 대기열이 SageMaker 훈련 작업에 대한 서비스 작업을 처리할 수 있도록 해 줍니다.
+ **서비스 작업** - 서비스 작업을 서비스 환경과 연결된 대기열에 제출하면는 환경의 구성을 AWS Batch 사용하여 해당 SageMaker 훈련 작업을 제출합니다.
+ **예약 정책** - 서비스 환경은 AWS Batch 예약 정책과 함께 작동하여 SageMaker 훈련 작업의 실행 순서의 우선 순위를 지정하고 관리합니다.

이 통합을 통해 SageMaker 훈련 작업 AWS Batch의 전체 기능과 유연성을 유지하면서의 성숙한 대기열 및 예약 기능을 활용할 수 있습니다.

## 서비스 환경 모범 사례
<a name="service-environment-best-practices"></a>

서비스 환경은 대규모로 SageMaker 훈련 작업을 관리할 수 있는 기능을 제공합니다. 이러한 모범 사례를 따르면 기계 학습 워크플로에 영향을 미칠 수 있는 일반적인 구성 문제를 방지하면서 비용, 성능 및 운영 효율성을 최적화하는 데 도움이 됩니다.

서비스 환경 용량을 계획할 때는 SageMaker 훈련 작업 대기열에 적용되는 특정 할당량 및 제한을 고려하세요. 각 서비스 환경에는 동시에 실행할 수 있는 SageMaker 훈련 작업 수를 직접 제어하는, 인스턴스 수로 표현된 최대 용량 제한이 있습니다. 이러한 제한을 이해하면 리소스 경합을 방지하는 데 도움이 되고 예측 가능한 작업 실행 시간을 보장합니다.

최적의 서비스 환경 성능은 SageMaker 훈련 작업 예약의 고유한 특성을 이해하는 데 달려 있습니다. 기존의 컨테이너화된 작업과 달리 서비스 작업은 SageMaker AI가 필요한 훈련 인스턴스를 획득하고 프로비저닝하는 동안 `SCHEDULED` 상태를 거치면서 전환됩니다. 이는 작업 시작 시간이 인스턴스 가용성 및 리전 용량에 따라 크게 달라질 수 있음을 의미합니다.

**중요**  
서비스 환경에는 SageMaker 훈련 워크로드의 규모를 조정하는 능력에 영향을 미칠 수 있는 특정 할당량이 있습니다. 계정당 최대 50개의 서비스 환경을 생성할 수 있으며, 각 작업 대기열은 한 개의 연결된 서비스 환경만 지원합니다. 또한 개별 작업에 대한 서비스 요청 페이로드는 10KiB로 제한되며 `SubmitServiceJob` API는 계정당 초당 5개의 트랜잭션으로 제한됩니다. 용량 계획 중에 이러한 제한을 이해하면 예상치 못한 규모 조정 제약을 방지할 수 있습니다.

서비스 환경을 효과적으로 모니터링하려면 AWS Batch 및 SageMaker AI 서비스 지표 모두에 주의를 기울여야 합니다. [작업 상태 전환](service-job-status.md)은 시스템 성능에 대한 소중한 정보를 제공합니다. 특히 `SCHEDULED` 상태에서 소요된 시간은 용량 가용성 패턴을 나타냅니다. 컴퓨팅 환경과 유사한 자체 수명 주기 상태를 유지하는 서비스 환경은 `CREATING`, `VALID`, `INVALID` 및 `DELETING` 상태를 거치며, 이러한 상태는 운영 상태 확인을 위해 모니터링되어야 합니다. 성숙한 모니터링 방식을 가진 조직은 일반적으로 대기열 깊이, 작업 완료율 및 인스턴스 사용률 패턴을 추적하여 시간 경과에 따라 서비스 환경 구성을 최적화합니다.

# 의 서비스 환경 상태 및 수명 주기 AWS Batch
<a name="service-environment-states"></a>

서비스 환경은 현재 운영 상태와 SageMaker 훈련 작업을 처리할 준비가 되었음을 나타내는 수명 주기 상태를 유지합니다. 이러한 상태를 이해하면 서비스 환경 상태를 모니터링하고 구성 문제를 해결하며 신뢰적인 작업 처리를 보장하는 데 도움이 됩니다. 상태 관리 시스템은 컴퓨팅 환경의 설정된 패턴을 따르면서 SageMaker 훈련 작업 통합의 고유한 요구 사항을 수용합니다.

서비스 환경 상태는 구성 검증, 리소스 가용성 및 운영 상태 확인을 AWS Batch 기반으로에서 자동으로 관리됩니다. 물리적 인프라를 관리하는 컴퓨팅 환경과 달리 서비스 환경은 구성 검증 및 SageMaker AI 서비스와의 통합 준비 태세에 중점을 둡니다. 상태 전환은 서비스 환경이 SageMaker 훈련 작업을 성공적으로 제출하고 관리할 수 있는지 여부에 대한 가시성을 제공합니다.

# 서비스 환경 상태 정의
<a name="service-environment-state-definitions"></a>

서비스 환경은 현재 운영 상태와 SageMaker 훈련 작업을 처리할 준비가 되었음을 나타내는 네 가지 상태 중 하나일 수 있습니다. 각 상태는 최초 생성부터 운영 준비, 최종 삭제에 이르기까지 서비스 환경 수명 주기의 특정 단계를 나타냅니다. 다음 표는 각 상태와 그 의미를 설명합니다.


| State | 설명 | 
| --- | --- | 
| CREATING |  서비스 환경을 생성할 때의 최초 상태입니다. 이 상태에서는 구성 파라미터를 AWS Batch 검증하고 SageMaker AI 서비스와의 통합을 설정합니다. 서비스 환경은 작업을 처리할 수 없으며, 이와 연결된 모든 작업 대기열은 서비스 작업 제출을 수락하지 않습니다. 일반적으로 생성 프로세스는 올바르게 구성된 서비스 환경에서 몇 초 내에 완료됩니다.  | 
| VALID |  서비스 환경이 모든 구성 검증 검사를 통과했으며 SageMaker 훈련 작업을 처리할 준비가 되었음을 나타내는 운영 상태. 이 상태는 서비스 환경 구성이 올바르고, 필요한 모든 권한이 있으며, 사용자를 대신하여 SageMaker AI에 작업을 성공적으로 제출할 AWS Batch 수 있음을 나타냅니다. 서비스 환경은 이 상태에서 대부분의 운영 수명 주기를 소비합니다.  | 
| INVALID |  서비스 환경에서 SageMaker 훈련 작업을 처리할 수 없는 구성 또는 권한 문제가 발생했음을 나타내는 상태. 유효하지 않은 서비스 환경과 연결된 작업 대기열은 해당 문제가 해결될 때까지 새 서비스 작업 제출을 처리할 수 없습니다.  | 
| DELETING |  서비스 환경 삭제를 요청했을 때 발생하는 상태. 이 상태에서는 활성 SageMaker 훈련 작업이 환경과 연결되어 있지 않고 필요한 정리 작업을 수행하는지 AWS Batch 확인합니다. 이 상태의 서비스 환경은 새 작업 제출을 처리할 수 없으며, 연결된 모든 리소스가 제대로 정리되면 삭제 프로세스가 완료됩니다.  | 

## 서비스 환경 상태 전환
<a name="service-environment-state-transitions"></a>

서비스 환경 상태 전환은 구성 변경, 검증 결과 및 운영 상태 모니터링을 기반으로 자동 수행됩니다. AWS Batch 서비스는 서비스 환경 상태를 지속적으로 모니터링하고 그에 따라 상태를 업데이트합니다. 이러한 전환을 이해하면 구성 변경이 적용되는 시기를 예측하고 잘못된 상태를 유발하는 문제를 해결하는 방법을 찾는 데 도움이 됩니다.

성공적으로 생성 및 검증이 완료되면 서비스 환경이 `CREATING`에서 `VALID`로 전환됩니다. 이 전환은 모든 구성 파라미터가 올바르고, 필수 IAM 권한이 올바르게 구성되었으며, 서비스 환경이 SageMaker AI 서비스와 성공적으로 통합될 수 있음을 확인합니다. 일단 `VALID` 상태가 되면 해당 작업 대기열이 서비스 작업 제출을 처리하기 시작할 수 있습니다.

구성 검증에 실패하거나 종속성을 사용할 수 없게 되면 서비스 환경이 `VALID`에서 `INVALID`로 전환됩니다. 이는 IAM 역할 수정, 할당량을 위반하는 용량 제한 변경 또는 서비스 환경의 올바른 작동에 영향을 미치는 외부 리소스 수정으로 인해 발생할 수 있습니다. 상태 사유 필드는 유효하지 않은 상태의 원인에 대한 구체적인 세부 정보를 제공합니다.

관련 문제가 해결되면 서비스 환경이 `INVALID`에서 `VALID`로 다시 전환될 수 있습니다. 여기에는 IAM 권한 업데이트, 용량 구성 수정 또는 필요한 AWS 리소스에 대한 액세스 복원이 포함될 수 있습니다. 전환은 일반적으로 AWS Batch 가 구성 문제가 해결되었음을 감지하면 자동으로 이루어집니다.

# 에서 서비스 환경 생성 AWS Batch
<a name="create-service-environments"></a>

에서 SageMaker 훈련 작업을 실행하려면 먼저 서비스 환경을 생성 AWS Batch해야 합니다. 가 SageMaker AI 서비스와 통합하고 사용자를 대신하여 SageMaker 훈련 작업을 제출하는 AWS Batch 데 필요한 구성 파라미터가 포함된 서비스 환경을 생성할 수 있습니다.

## 사전 조건
<a name="create-service-environments-prerequisites"></a>

서비스 환경을 생성하려면 먼저 다음을 갖추어야 합니다.
+ **IAM 권한** - 서비스 환경을 생성하고 관리할 수 있는 권한. 자세한 내용은 [AWS Batch IAM 정책, 역할 및 권한](IAM_policies.md) 단원을 참조하십시오.

------
#### [ Create a service environment (AWS Console) ]

 AWS Batch 콘솔을 사용하여 웹 인터페이스를 통해 서비스 환경을 생성합니다.

**서비스 환경을 생성하는 방법**

1. [https://console.aws.amazon.com/batch/](https://console.aws.amazon.com/batch/) AWS Batch 콘솔을 엽니다.

1. 탐색 창에서 **환경**을 선택합니다.

1. **환경 생성**을 선택하고 **서비스 환경**을 선택합니다.

1. **서비스 환경 구성**에서 SageMaker AI를 선택합니다.

1. **이름**에 서비스 환경의 고유한 이름을 입력합니다. 유효한 문자는 a\$1z, A\$1Z, 0\$19, 하이픈(-) 및 밑줄(\$1)입니다.

1. **최대 인스턴스 수**에 동시 훈련 인스턴스의 최대 수를 입력합니다.

1. (선택 사항) **태그 추가**를 선택하고 키-값 페어를 입력하여 태그를 추가합니다.

1. **다음**을 선택합니다.

1. 새 서비스 환경의 세부 정보를 검토하고 **서비스 환경 생성**을 선택합니다.

------
#### [ Create a service environment (AWS CLI) ]

`create-service-environment` 명령을 사용하여 AWS CLI를 사용하여 서비스 환경을 생성합니다.

**서비스 환경을 생성하는 방법**

1. 기본 필수 파라미터를 사용하여 서비스 환경을 생성합니다.

   ```
   aws batch create-service-environment \
       --service-environment-name my-sagemaker-service-env \
       --service-environment-type SAGEMAKER_TRAINING \
       --capacity-limits capacityUnit=NUM_INSTANCES,maxCapacity=10
   ```

1. (선택 사항) 태그와 함께 서비스 환경을 선택합니다.

   ```
   aws batch create-service-environment \
       --service-environment-name my-sagemaker-service-env \
       --service-environment-type SAGEMAKER_TRAINING \
       --capacity-limits capacityUnit=NUM_INSTANCES,maxCapacity=10 \
       --tags team=data-science,project=ml-training
   ```

1. 서비스 환경이 성공적으로 생성되었는지 확인합니다.

   ```
   aws batch describe-service-environments \
       --service-environment my-sagemaker-service-env
   ```

서비스 환경이 환경 목록에 `CREATING` 상태로 나타납니다. 생성이 성공적으로 완료되면 상태가 `VALID`로 변경되고 서비스 환경에서 작업 처리를 시작할 수 있도록 서비스 작업 대기열을 추가할 준비가 됩니다.

------

# 에서 서비스 환경 업데이트 AWS Batch
<a name="updating-service-environments"></a>

서비스 환경을 업데이트하여 용량 제한을 수정하거나, 운영 상태를 변경하거나, 리소스 태그를 업데이트할 수 있습니다. 서비스 환경 업데이트는 환경을 다시 생성하지 않고도 변경된 SageMaker 훈련 워크로드 요구 사항에 맞게 용량을 조정하거나 운영 설정을 수정할 수 있게 해 줍니다. 서비스 환경을 업데이트하기 전에, 어느 파라미터를 수정할 수 있으며 변경 사항이 실행 중인 작업에 어떤 영향을 미치는지 이해해야 합니다.

서비스 환경의 용량 제한, 상태 또는 태그를 변경할 수 있습니다.

------
#### [ Update a service environment (AWS Console) ]

 AWS Batch 콘솔을 사용하여 웹 인터페이스를 통해 서비스 환경을 업데이트합니다.

**서비스 환경을 업데이트하려면**

1. [https://console.aws.amazon.com/batch/](https://console.aws.amazon.com/batch/) AWS Batch 콘솔을 엽니다.

1. 탐색 창에서 **환경**을 선택합니다.

1. **서비스 환경** 탭을 선택합니다.

1. 업데이트할 서비스 환경을 선택합니다.

1. **작업**을 선택한 후 다음 중 하나를 선택합닏.
   + **상태** - **활성화** 또는 **비활성화**를 선택하여 상태를 변경합니다.
   + **용량 제한** - **최대 인스턴스 수**를 수정합니다.

1. **변경 사항 저장**을 선택하여 변경 사항을 적용합니다.

서비스 환경은 즉시 업데이트됩니다. 환경 세부 정보를 확인하여 변경 사항이 성공적으로 적용되었는지 확인합니다. 서비스 환경을 비활성화한 경우, 다시 활성화할 때까지 연결된 작업 대기열이 새 서비스 작업 제출의 처리를 중지합니다.

------
#### [ Update a service environment (AWS CLI) ]

`update-service-environment` 명령을 사용하여 AWS CLI를 사용하여 서비스 환경을 수정합니다.

**서비스 환경 용량 제한을 업데이트하려면**

1. 서비스 환경의 용량 제한을 업데이트합니다.

   ```
   aws batch update-service-environment \
       --service-environment my-sagemaker-service-env \
       --capacity-limits capacityUnit=NUM_INSTANCES,maxCapacity=20
   ```

1. 업데이트가 성공적으로 적용되었는지 확인합니다.

   ```
   aws batch describe-service-environments \
       --service-environments my-sagemaker-service-env
   ```

**서비스 환경 상태를 업데이트하려면**

1. 새 작업 처리를 중지하려면 서비스 환경을 비활성화합니다.

   ```
   aws batch update-service-environment \
       --service-environment my-sagemaker-service-env \
       --state DISABLED
   ```

1. 서비스 환경을 다시 활성화하여 처리를 재개합니다.

   ```
   aws batch update-service-environment \
       --service-environment my-sagemaker-service-env \
       --state ENABLED
   ```

서비스 환경 업데이트는 즉시 적용됩니다. 새 작업을 제출하기 전에 서비스 환경 상태를 모니터링하여 업데이트가 성공적으로 완료되었는지 확인합니다.

------

# 에서 서비스 환경 삭제 AWS Batch
<a name="deleting-service-environments"></a>

SageMaker 훈련 작업에 더 이상 필요하지 않은 서비스 환경을 삭제할 수 있습니다. 서비스 환경을 삭제하면 구성이 제거되고 추가 작업 제출이 방지됩니다. 서비스 환경을 삭제하기 전에 해당 환경에 의존하는 활성 SageMaker 훈련 작업이 없으며 서비스 환경과 연결된 작업 대기열이 없는지 확인합니다.

**중요**  
서비스 환경 삭제는 되돌릴 수 없습니다. 삭제한 후에는 서비스 환경 또는 해당 구성을 복구할 수 없습니다. 향후 유사한 기능이 필요한 경우 필요한 설정을 사용하여 새 서비스 환경을 생성해야 합니다. 나중에 다시 활성화해야 할 수 있는 경우, 서비스 환경을 삭제 대신 비활성화하는 것을 고려하세요.

**참고**  
계정의 모든 서비스 환경을 삭제해도 AWS Batch 및 SageMaker AI 통합에 대해 생성된 서비스 연결 역할이 자동으로 제거되지는 않습니다. 서비스 연결 역할은 향후 서비스 환경을 생성에 계속 사용할 수 있습니다. 서비스 연결 역할을 제거하려는 경우, 계정에 서비스 환경이 없는지 확인한 후 IAM을 사용하여 별도로 삭제해야 합니다.

## 삭제 사전 조건
<a name="service-environment-deletion-prerequisites"></a>

서비스 환경을 삭제하려면 먼저 모든 서비스 작업 대기열의 연결을 해제한 다음 서비스 환경을 비활성화해야 합니다.

**서비스 환경을 삭제하기 전에:**
+ **활성 작업 확인** - 서비스 환경을 통해 현재 실행 중인 SageMaker 훈련 작업이 없는지 확인합니다.
+ **작업 대기열 검토** - 서비스 환경과 연결된 작업 대기열을 식별하고 작업 대기열을 다른 서비스 환경에 연결하거나 작업 대기열을 비활성화하고 삭제합니다.

**작업 대기열 관리:** 삭제된 서비스 환경과 연결된 작업 대기열은 여전히 존재할 수 있지만 서비스 작업은 처리할 수 없습니다. 원래 서비스 환경을 삭제하기 전에 사용하지 않는 작업 대기열을 삭제하거나 다른 서비스 환경에 연결해야 합니다.

------
#### [ Delete a service environment (AWS Console) ]

 AWS Batch 콘솔을 사용하여 웹 인터페이스를 통해 서비스 환경을 삭제합니다.

**서비스 환경을 삭제하는 방법**

1. [https://console.aws.amazon.com/batch/](https://console.aws.amazon.com/batch/) AWS Batch 콘솔을 엽니다.

1. 탐색 창에서 **환경**을 선택합니다.

1. **서비스 환경** 탭을 선택한 다음 서비스 환경을 선택합니다.

1. 서비스 환경이 활성화되어 있는 경우, **작업**을 선택한 다음 **비활성화**를 선택합니다.

1. 서비스 환경이 비활성화되어 있는 경우, **작업**을 선택한 다음 **삭제**를 선택합니다.

1. 확인 대화 상자에서 **확인**을 선택합니다.

삭제가 진행되는 동안 서비스 환경에 `DELETING` 상태가 표시됩니다. 삭제가 완료되면 서비스 환경이 환경 목록에서 사라집니다.

------
#### [ Delete a service environment (AWS CLI) ]

`delete-service-environment` 명령을 사용하여 AWS CLI를 사용하여 서비스 환경을 제거합니다.

**서비스 환경을 삭제하는 방법**

1. 서비스 환경에 연결된 작업 대기열을 확인합니다.

   ```
   aws batch describe-job-queues
   ```

   서비스 환경과 연결된 작업 대기열이 있는 경우, 서비스 환경에서 [작업 대기열의 연결을 해제](https://docs.aws.amazon.com/batch/latest/APIReference/API_UpdateJobQueue.html)하고 다른 서비스 환경에 연결하거나 작업 대기열을 삭제할 수 있습니다.

1. 서비스 환경을 비활성화합니다.

   ```
   aws batch update-service-environment \
       --service-environment my-sagemaker-service-env \
       --state DISABLED
   ```

1. 서비스 환경을 삭제합니다.

   ```
   aws batch delete-service-environment \
       --service-environment my-sagemaker-service-env
   ```

1. 삭제 프로세스를 모니터링합니다.

   ```
   aws batch describe-service-environments \
       --service-environment my-sagemaker-service-env
   ```

삭제 프로세스 동안 서비스 환경은 `DELETING` 상태로 전환됩니다. 삭제가 완료되면 서비스 환경이 더 이상 설명 작업에 나열되지 않습니다. 연결된 작업 대기열은 남아 있지만 다른 서비스 환경과 연결될 때까지 서비스 작업을 처리할 수 없습니다.

------