기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# SageMaker AI 호스팅 서비스에서 모델 배포 모범 사례
<a name="deployment-best-practices"></a>

SageMaker AI 호스팅 서비스를 사용하여 모델을 호스팅할 때 다음 사항을 고려해야 합니다.
+ 일반적으로 클라이언트 애플리케이션에서 SageMaker AI HTTPS 엔드포인트로 요청을 전송하여 배포된 모델로부터 추론을 얻습니다. 또한 테스트 도중 Jupyter notebook으로부터 이 엔드포인트로 요청을 전송할 수 있습니다.
+ SageMaker AI를 통해 훈련된 모델을 자체 배포 대상으로 배포할 수 있습니다. 이렇게 하려면 모델 훈련으로 생성된 모델 결과물의 알고리즘별 형식을 알아야 합니다. 출력 형식에 대한 자세한 정보는 [훈련을 위한 공통 데이터 형식](cdf-training.md)에서 사용 중인 알고리즘과 관련이 있는 섹션을 참조하세요.
+ 모델의 여러 변형을 동일한 SageMaker AI HTTPS 엔드포인트로 배포할 수 있습니다. 이는 프로덕션에 있는 모델의 변형을 테스트하는 데 유용합니다. 예를 들어, 모델을 프로덕션으로 배포했다고 가정합니다. 소량의 트래픽(예: 5%)을 새 모델로 보내서 모델의 변형을 테스트하려고 합니다. 이렇게 하려면 모델의 변형을 모두 설명하는 엔드포인트 구성을 생성합니다. 요청에 있는 `ProductionVariant`를 `CreateEndPointConfig`로 지정합니다. 자세한 내용은 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html) 섹션을 참조하세요.
+ `ProductionVariant`을(를) 구성하여 Application Auto Scaling을 사용할 수 있습니다. 자동 조정 구성에 대한 자세한 정보는 [Amazon SageMaker AI 모델의 자동 규모 조정](endpoint-auto-scaling.md) 섹션을 참조하세요.
+ 이미 서비스 불가능한 프로덕션으로 배포된 모델을 가져오지 않고 엔드포인트를 수정할 수 있습니다. 예를 들어 새 모델 변형을 추가하고, 기존 모델 변형의 ML 컴퓨팅 인스턴스 구성을 업데이트하거나 모델 변형 간 트래픽 배포를 변경할 수 있습니다. 엔드포인트를 수정하려면 새 엔드포인트 구성을 입력합니다. SageMaker AI는 가동 중지 시간 없이 변경 사항을 구현합니다. 자세한 내용은 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateEndpoint.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateEndpoint.html) 및 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateEndpointWeightsAndCapacities.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateEndpointWeightsAndCapacities.html) 섹션을 참조하세요.
+ 모델 배포 이후 모델 결과물을 변경 또는 삭제하거나 추론 코드를 변경하면 예측할 수 없는 결과가 생산됩니다. 모델 결과물을 변경 또는 삭제하거나 추론 코드를 변경해야 하는 경우 새 엔드포인트 구성을 제공함으로써 엔드포인트를 수정합니다. 새 엔드포인트 구성을 제공한 이후 기존 엔드포인트 구성에 따라 모델 결과물을 변경 또는 삭제할 수 있습니다.
+ 전체 데이터세트에서 추론을 가져오려는 경우 호스팅 서비스의 대안으로 배치 변환 사용을 고려해 보세요. 자세한 정보는 [Amazon SageMaker AI를 사용한 추론용 배치 변환](batch-transform.md) 섹션을 참조하세요.

## 가용 영역 전반에 걸쳐 여러 인스턴스 배포
<a name="deployment-best-practices-availability-zones"></a>

**모델 호스팅 시 강력한 엔드포인트를 생성합니다.** SageMaker AI 엔드포인트는 [가용 영역](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-regions-availability-zones.html) 중단 및 인스턴스 실패로부터 애플리케이션을 보호하는 데 도움이 될 수 있습니다. 중단이 발생하거나 인스턴스에서 장애가 발생하면 SageMaker AI에서는 가용 영역 전체에서 인스턴스를 배포하려고 자동으로 시도합니다. 따라서 각 프로덕션 엔드포인트에 여러 인스턴스를 배포하는 것이 매우 좋습니다.

[Amazon Virtual Private Cloud(VPC)](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html)를 사용하는 경우 다른 가용 영역에서 각각 둘 이상의 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_VpcConfig.html#SageMaker-Type-VpcConfig-Subnets                     .html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_VpcConfig.html#SageMaker-Type-VpcConfig-Subnets                     .html)을(를) 사용하여 VPC를 구성합니다. 중단이 발생하거나 인스턴스에서 장애가 발생하면 Amazon SageMaker AI에서는 가용 영역 전체에서 인스턴스를 배포하려고 자동으로 시도합니다.

일반적으로 보다 신뢰할 수 있는 성능을 얻으려면 여러 가용 영역에서 더 작은 [인스턴스 유형](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/instance-types.html)을 사용하여 엔드포인트를 호스팅합니다.

**고가용성을 위해 추론 구성 요소를 배포합니다.** 인스턴스 번호에 대한 위의 권장 사항 외에도 99.95% 가용성을 달성하려면 추론 구성 요소가 두 개 이상의 복사본을 갖도록 구성되어야 합니다. 또한 관리형 자동 조정 정책에서 최소 인스턴스 수를 2로 설정합니다.