기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 최적화된 모델의 성능 평가
<a name="model-optimize-evaluate"></a>

최적화 작업을 사용하여 최적화된 모델을 생성한 후 모델 성능 평가를 실행할 수 있습니다. 이 평가는 지연 시간, 처리량 및 가격에 대한 지표를 산출합니다. 이러한 지표를 사용하여 최적화된 모델이 사용 사례의 요구 사항을 충족하는지 또는 추가 최적화가 필요한지 확인합니다.

Studio를 사용해야만 성능 평가를 실행할 수 있습니다. 이 기능은 Amazon SageMaker AI API 또는 Python SDK를 통해 제공되지 않습니다.

## 시작하기 전 준비 사항
<a name="eval-prereqs"></a>

성능 평가를 생성하기 전에 먼저 추론 최적화 작업을 생성하여 모델을 최적화해야 합니다. Studio에서는 이러한 작업으로 생성한 모델만 평가할 수 있습니다.

## 성능 평가 생성
<a name="create-perf-eval"></a>

Studio에서 다음 단계를 완료하여 최적화된 모델에 대한 성능 평가를 생성합니다.

1. Studio 탐색 메뉴의 **작업** 에서 **추론 최적화**를 선택합니다.

1. 평가하려는 최적화된 모델을 생성한 작업의 이름을 선택합니다.

1. 작업 세부 정보 페이지에서 **성능 평가**를 선택합니다.

1. **성능 평가** 페이지에서 일부 JumpStart 모델은 계속 진행하기 전에 최종 사용자 라이선스 계약(EULA)에 서명해야 합니다. 요청된 경우 라이선스 **계약 섹션의 라이선스** 조건을 검토합니다. 사용 사례에 적합한 용어인 경우 **EULA 동의 확인란을 선택하고 사용 약관을 읽습니다.**

1. **토큰화기 모델 선택**에서 기본값을 수락하거나 평가를 위한 토큰화기 역할을 할 특정 모델을 선택합니다.

1. **입력 데이터세트**에서 다음을 선택합니다.
   + SageMaker AI의 기본 샘플 데이터세트를 사용합니다.
   + 자체 샘플 데이터세트를 가리키는 S3 URI를 제공합니다.

1. **성능 결과에 대한 S3 URI**의 경우 평가 결과를 저장하려는 Amazon S3의 위치를 가리키는 URI를 제공합니다.

1. **평가**를 선택합니다.

   Studio는 **테이블에 평가 작업이 표시되는 성능** 평가 페이지를 보여줍니다. **상태** 열에는 평가 상태가 표시됩니다.

1. 상태가 **완료**이면 작업 이름을 선택하여 평가 결과를 확인합니다.

평가 세부 정보 페이지에는 지연 시간, 처리량 및 요금에 대한 성능 지표를 제공하는 테이블이 표시됩니다. [추론 성능 평가에 대한 지표 참조](#performance-eval-metrics-reference) 지표에 대한 자세한 내용은를 참고하세요.

## 추론 성능 평가에 대한 지표 참조
<a name="performance-eval-metrics-reference"></a>

최적화된 모델의 성능을 성공적으로 평가하면 Studio의 평가 세부 정보 페이지에 다음 지표가 표시됩니다.

### 지연 시간 지표
<a name="latency-metrics"></a>

**지연 시간** 섹션에는 다음 지표가 표시됩니다.

**동시성**  
엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.

**첫 번째 토큰까지의 시간(ms)**  
요청이 전송된 시점과 스트리밍 응답의 첫 번째 토큰이 수신된 시점 사이에 경과한 시간입니다.

**토큰 간 지연 시간(ms)**  
각 요청에 대한 출력 토큰을 생성하는 시간입니다.

**클라이언트 지연 시간(ms)**  
요청이 전송된 시점부터 전체 응답이 수신된 시점까지의 요청 지연 시간입니다.

**입력 토큰/초(카운트)**  
모든 요청에서 생성된 입력 토큰의 총 수를 동시성의 총 지속 시간으로 나눈 값입니다.

**출력 토큰/초(카운트)**  
모든 요청에서 생성된 출력 토큰의 총 수를 동시성에 대해 초 단위로 나눈 값입니다.

**클라이언트 호출(수)**  
동시에 모든 사용자에 걸쳐 엔드포인트로 전송된 추론 요청의 총 수입니다.

**클라이언트 호출 오류(개수)**  
지정된 동시성에 모든 사용자에 걸쳐 엔드포인트로 전송된 총 추론 요청 수로, 호출 오류가 발생했습니다.

**토큰화 실패(개수)**  
토큰화기가 요청 또는 응답을 구문 분석하지 못한 총 추론 요청 수입니다.

**빈 추론 응답(개수)**  
출력 토큰이 0이거나 토큰화기가 응답을 구문 분석하지 못한 총 추론 요청 수입니다.

### 처리량 지표
<a name="throughput-metrics"></a>

**처리량** 섹션에는 다음 지표가 표시됩니다.

**동시성**  
엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.

**입력 토큰/초/요청(수)**  
요청당 초당 생성된 입력 토큰의 총 수입니다.

**출력 토큰/초/요청(카운트)**  
요청당 초당 생성된 출력 토큰의 총 수입니다.

**입력 토큰(개수)**  
요청당 생성된 입력 토큰의 총 수입니다.

**출력 토큰(개수)**  
요청당 생성된 출력 토큰의 총 수입니다.

### 가격 지표
<a name="price-metrics"></a>

**가격** 섹션에는 다음 지표가 표시됩니다.

**동시성**  
엔드포인트를 동시에 호출하기 위해 평가를 시뮬레이션한 동시 사용자의 수입니다.

**입력 토큰 백만 개당 가격**  
1M 입력 토큰 처리 비용.

**백만 출력 토큰당 가격**  
1M 출력 토큰 생성 비용.