# SageMaker 추론
<a name="nova-model-sagemaker-inference"></a>

이제 SageMaker 추론에서 사용자 지정 Amazon Nova 모델을 사용할 수 있습니다. SageMaker에서 Amazon Nova를 사용하면 훈련된 사용자 지정 Amazon Nova 모델에서 예측 또는 추론을 가져올 수 있습니다. SageMaker는 모든 ML 추론 요구 사항을 충족하는 데 도움이 되는 다양한 ML 인프라 및 모델 배포 옵션을 제공합니다. SageMaker 추론을 사용하면 모델 배포를 확장하고, 프로덕션에서 모델을 더 효과적으로 관리하며, 운영 부담을 줄일 수 있습니다.

SageMaker는 지연 시간이 짧은 추론을 위한 실시간 엔드포인트 및 요청 배치 처리를 위한 비동기 엔드포인트와 같은 다양한 추론 옵션을 제공합니다. 사용 사례에 적합한 추론 옵션을 활용하면 효율적인 모델 배포 및 추론을 보장할 수 있습니다. SageMaker 추론에 대한 자세한 내용은 [Deploy models for inference](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html)를 참조하세요.

**중요**  
SageMaker 추론에서는 전체 순위 사용자 지정 모델 및 LoRA 병합 모델만 지원됩니다. 병합되지 않은 LoRA 모델 및 기본 모델의 경우 Amazon Bedrock을 사용합니다.

## 특성
<a name="nova-sagemaker-inference-features"></a>

SageMaker 추론에서 Amazon Nova 모델에 대해 사용할 수 있는 기능은 다음과 같습니다.

**모델 기능**
+ 텍스트 생성

**배포 및 조정**
+ 사용자 지정 인스턴스 선택이 포함된 실시간 엔드포인트
+ 오토 스케일링 - 트래픽 패턴에 따라 용량을 자동으로 조정하여 비용과 GPU 사용률을 최적화합니다. 자세한 내용은 [Automatically Scale Amazon SageMaker Models](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html)를 참조하세요.
+ 실시간 토큰 생성을 위한 스트리밍 API 지원

**모니터링 및 최적화**
+ 모니터링 및 알림을 위한 Amazon CloudWatch 통합
+ VPC 구성을 통한 가용 영역 인지 지연 시간 최적화

**개발 도구**
+ AWS CLI 지원 – 자세한 내용은 [AWS CLI Command Reference for SageMaker](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/)를 참조하세요.
+  SDK 지원을 통한 노트북 통합

## 지원되는 모델 및 인스턴스
<a name="nova-sagemaker-inference-supported"></a>

SageMaker 추론 엔드포인트를 생성하는 경우 두 가지 환경 변수(`CONTEXT_LENGTH` 및 `MAX_CONCURRENCY`)를 설정하여 배포를 구성할 수 있습니다.
+ `CONTEXT_LENGTH` - 요청당 최대 총 토큰 길이(입력 \$1 출력)
+ `MAX_CONCURRENCY` - 엔드포인트가 지원하는 최대 동시 요청 수

다음 표에는 지원되는 Amazon Nova 모델, 인스턴스 유형 및 지원되는 구성이 나와 있습니다. MAX\$1CONCURRENCY 값은 각 CONTEXT\$1LENGTH 설정에서 지원되는 최대 동시성을 나타냅니다.


****  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/nova/latest/nova2-userguide/nova-model-sagemaker-inference.html)

**참고**  
표시된 MAX\$1CONCURRENCY 값은 각 CONTEXT\$1LENGTH 설정의 상한입니다. 동일한 동시성으로 더 짧은 컨텍스트 길이를 사용할 수 있지만, 이러한 값을 초과하면 SageMaker 엔드포인트 생성에 실패합니다.  
예를 들어 ml.g5.12xlarge를 사용하는 Amazon Nova Micro의 경우:  
`CONTEXT_LENGTH=2000`, `MAX_CONCURRENCY=32` → 유효
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=32` → 거부됨(컨텍스트 길이 8,000에서 동시성 제한은 16)
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=4` → 유효
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=16` → 유효
`CONTEXT_LENGTH=10000` → 거부됨(이 인스턴스에서 최대 컨텍스트 길이: 8,000)

## 지원되는 AWS 리전
<a name="nova-sagemaker-inference-regions"></a>

다음 표에는 SageMaker 추론에서 Amazon Nova 모델을 사용할 수 있는 AWS 리전이 나와 있습니다.


****  

| 리전 이름 | 리전 코드 | 가용성 | 
| --- | --- | --- | 
| 미국 동부(버지니아 북부) | us-east-1 | Available | 
| 미국 서부(오리건) | us-west-2 | Available | 

## 지원되는 컨테이너 이미지
<a name="nova-sagemaker-inference-container-images"></a>

다음 표에는 SageMaker 추론에서 Amazon Nova 모델에 대한 컨테이너 이미지 URI가 리전별로 나와 있습니다. 각 리전에 대해 버전 관리된 태그(`v1.0.0`) 및 최신 태그(`SM-Inference-latest`)와 같은 두 가지 이미지 태그를 사용할 수 있습니다. 프로덕션 배포의 경우 버전 관리된 태그를 사용하는 것이 좋습니다.


****  

| 리전 | 컨테이너 이미지 URI | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## 모범 사례
<a name="nova-sagemaker-inference-best-practices"></a>

SageMaker에서 모델을 배포하고 관리하는 모범 사례는 [Best Practices for SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html)를 참조하세요.

## 지원
<a name="nova-sagemaker-inference-support"></a>

SageMaker 추론에서 Amazon Nova 모델에 대한 지원 및 관련 문제는 콘솔 또는 AWS 계정 관리자를 통해 AWS Support에 문의하세요.

**Topics**
+ [특성](#nova-sagemaker-inference-features)
+ [지원되는 모델 및 인스턴스](#nova-sagemaker-inference-supported)
+ [지원되는 AWS 리전](#nova-sagemaker-inference-regions)
+ [지원되는 컨테이너 이미지](#nova-sagemaker-inference-container-images)
+ [모범 사례](#nova-sagemaker-inference-best-practices)
+ [지원](#nova-sagemaker-inference-support)
+ [시작하기](nova-sagemaker-inference-getting-started.md)
+ [API 참조](nova-sagemaker-inference-api-reference.md)
+ [SageMaker 추론에 호스팅되는 모델 평가](nova-eval-on-sagemaker-inference.md)
+ [Amazon SageMaker 추론 침해 탐지에서 Amazon Nova Forge 모델 배포](nova-sagemaker-inference-abuse-detection.md)