기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 최적화된 생성형 AI 추론 권장 사항
<a name="generative-ai-inference-recommendations"></a>

Amazon SageMaker AI는 이제 수동 최적화 및 벤치마킹을 제거하여 최적의 추론 성능을 제공하는 기능인 추론 권장 사항을 지원합니다. GPU 인스턴스 유형, 서비스 컨테이너, 병렬 처리 전략 및 최적화 기법의 조합을 수동으로 테스트하는 대신 모델 및 워크로드 요구 사항을 제공하고 SageMaker AI는 실제 성능 지표와 함께 검증된 배포 지원 구성을 반환합니다.

추론 권장 사항은 모델의 아키텍처를 분석하고 구성 공간을 좁히며 처리량을 위한 투기 디코딩 및 지연 시간을 위한 커널 튜닝과 같은 목표 정렬 최적화를 적용합니다. 여러 인스턴스 유형을 평가하여 워크로드에 가장 적합한 가격 대비 옵션을 선택할 수 있습니다. 실제 GPU 인프라에서 각 구성을 벤치마킹하므로 자신 있게 배포하고 추론 지출의 크기를 조정할 수 있습니다.

## 작동 방식
<a name="generative-ai-inference-recommendations-how-it-works"></a>

SageMaker AI Studio 또는 SageMaker AI SageMaker APIs. 다음 단계에서는 워크플로를 설명합니다.

1. **모델을 준비합니다.** Amazon S3 또는 SageMaker AI 모델 레지스트리의 모델 아티팩트를 가리킵니다. 추론 권장 사항은 기본 모델과 사용자 지정 또는 미세 조정된 모델을 포함하여 SafeTensor 가중치가 있는 HuggingFace 체크포인트 형식을 지원합니다.

1. **워크로드를 정의합니다.** 입력 및 출력 토큰 배포와 동시성 수준을 포함하여 예상되는 트래픽 패턴을 설명합니다. 인라인 사양 또는 Amazon S3의 대표 데이터 세트를 사용할 수 있습니다.

1. **목표를 설정합니다.** 비용 최적화, 지연 시간 최소화 또는 처리량 극대화라는 단일 성능 목표를 선택합니다. 비교할 인스턴스 유형을 최대 3개까지 선택합니다.

1. **결과를 검토합니다.** SageMaker AI는 첫 번째 토큰 시간(TTFT), 토큰 간 지연 시간, P50/P90/P99에서의 요청 지연 시간, 처리량, 구성당 비용 등의 실제 성능 지표를 사용하여 검증된 구성을 반환합니다. 각 구성은 배포가 가능합니다.

1. **배포.** 선택한 구성을 SageMaker AI Studio의 단일 작업을 사용하거나 API를 통해 프로그래밍 방식으로 SageMaker AI 추론 엔드포인트에 배포합니다.

기존 프로덕션 엔드포인트를 벤치마킹하여 현재 성능을 검증하거나 새 구성과 비교할 수도 있습니다.

## 사용 사례
<a name="generative-ai-inference-recommendations-use-cases"></a>

다음은 추론 권장 사항의 일반적인 사용 사례입니다.
+ **배포 전 검증.** 프로덕션 배포를 커밋하기 전에 새 모델을 최적화하고 벤치마킹합니다. 크기 조정에 투자하기 전에 모델의 성능을 검증합니다.
+ **업데이트 후 회귀 테스트.** 컨테이너 업데이트, 프레임워크 업그레이드 또는 라이브러리 릴리스 제공 후 성능을 검증합니다. 프로덕션으로 푸시하기 전에 구성이 여전히 최적인지 확인합니다.
+ **조건이 변경될 때 적절한 크기 조정.** 트래픽 패턴이 이동하거나 새 인스턴스 유형을 사용할 수 있게 되면 몇 주 길이의 수동 프로세스를 다시 시작하는 대신 몇 시간 만에 추론 권장 사항을 다시 실행합니다.
+ **모델 비교.** 여러 인스턴스 유형에서 다양한 모델 변형의 성능과 비용을 비교하여 프로덕션 배포 전에 정보에 입각한 선택을 할 수 있습니다.
+ **비용 최적화.** 기존 프로덕션 엔드포인트를 벤치마킹하여 과다 프로비저닝된 인프라를 식별합니다. 결과를 사용하여 반복되는 추론 지출을 적절하게 조정하고 줄일 수 있습니다.

## 가격 책정
<a name="generative-ai-inference-recommendations-pricing"></a>

추론 권장 사항에는 추가 서비스 요금이 부과되지 않습니다. 추가 컴퓨팅 비용 없이 기존 ML 예약(유연한 훈련 계획)을 사용하거나 자동으로 프로비저닝되는 온디맨드 컴퓨팅을 사용할 수 있습니다.

## 지원되는 리전:
<a name="generative-ai-inference-recommendations-regions"></a>

추론 권장 사항은 다음 AWS 리전에서 사용할 수 있습니다.
+ 미국 동부(버지니아 북부)
+ 미국 동부(오하이오)
+ 미국 서부(오리건)
+ 아시아 태평양(싱가포르)
+ 아시아 태평양(도쿄)
+ 유럽(프랑크푸르트)
+ 유럽(아일랜드)