

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 오토 스케일링 구성 로드 테스트
<a name="endpoint-scaling-loadtest"></a>

로드 테스트를 수행하여 원하는 방식으로 작동하는 크기 조정 구성을 선택합니다.

다음 로드 테스트 지침에서는 사전 정의된 대상 지표인 `SageMakerVariantInvocationsPerInstance`를 사용하는 크기 조정 정책을 사용한다고 가정합니다.

**Topics**
+ [

## 성능 특성 판단
](#endpoint-scaling-loadtest-variant)
+ [

## 목표 하중 계산
](#endpoint-scaling-loadtest-calc)

## 성능 특성 판단
<a name="endpoint-scaling-loadtest-variant"></a>

로드 테스트를 수행하여 모델의 프로덕션 변형이 처리할 수 있는 `InvocationsPerInstance` 피크와 동시성 증가에 따른 요청 지연 시간을 확인합니다.

이 값은 선택한 인스턴스 유형, 모델의 클라이언트가 일반적으로 전송하는 페이로드, 모델 보유한 모든 외부 종속성의 성능에 따라 다릅니다.

**모델의 프로덕션 변형이 처리할 수 있는 초당 요청(RPS) 피크와 요청 지연 시간을 확인하려면**

1. 단일 인스턴스를 사용하여 모델에서 엔드포인트를 설정합니다. 엔드포인트 설정 방법에 대한 자세한 정보는 [SageMaker AI 호스팅 서비스에 모델 배포](ex1-model-deployment.md#ex1-deploy-model) 섹션을 참조하세요.

1. 로드 테스트 도구를 사용하여 증가하는 병렬 요청을 생성하고, 로드 테스트 도구의 출력에서 RPS 및 모델 지연 시간을 모니터링합니다.
**참고**  
RPS 대신 분당 요청을 모니터링할 수도 있습니다. 이러한 경우 아래 표시된 `SageMakerVariantInvocationsPerInstance` 계산 등식에 60을 곱하지 마세요.

   모델 지연 시간이 증가하거나 트랜잭션 성공 비율이 감소하는 경우, 모델이 처리할 수 있는 피크 RPS가 이 값이 됩니다.

## 목표 하중 계산
<a name="endpoint-scaling-loadtest-calc"></a>

변형의 성능 특성을 확인한 이후 인스턴스에 전송되도록 허용해야 하는 최대 RPS를 결정할 수 있습니다. 조정에 사용되는 임계 값은 이 최대 값보다 작아야 합니다. 로드 테스트와 함께 다음 수식을 사용하여 크기 조정 구성의 `SageMakerVariantInvocationsPerInstance` 대상 지표에 대한 올바른 값을 결정합니다.

```
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
```

`MAX_RPS`는 이전에 결정했던 최대 RPS이고, `SAFETY_FACTOR`는 클라이언트가 최대 RPS를 초과하지 않도록 하는 안전 요인입니다. 60을 곱하여 RPS를 분당 간접 호출로 변환하고 SageMaker AI에서 오토 스케일링을 구현하는 데 사용하는 분당 CloudWatch 지표와 일치시킵니다(초당 요청 대신 분당 요청으로 측정한 경우에는 이 작업을 수행할 필요가 없음).

**참고**  
SageMaker AI에서는 `SAFETY_FACTOR`를 0.5로 하여 테스트를 시작하는 것을 권장합니다. 엔드포인트에서 트래픽이 증가 및 감소해도 모델이 예상한 대로 작동하는지 확인하도록 크기 조정 구성을 테스트하세요.