

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 비동기 추론
<a name="async-inference"></a>

Amazon SageMaker 비동기식 추론은 들어오는 요청을 대기열에 넣고 비동기식으로 처리하는 SageMaker AI의 기능입니다. 이 옵션은 페이로드 크기가 크고(최대 1GB), 처리 시간이 길며(최대 1시간), 거의 실시간에 가까운 지연 시간이 필요한 요건에 적합합니다. 비동기 추론을 사용하면 처리할 요청이 없을 때 인스턴스 수를 0으로 오토 스케일링하여 비용을 절감할 수 있으므로 엔드포인트가 요청을 처리할 때만 비용을 지불할 수 있습니다.

## 작동 방식
<a name="async-inference-how-it-works"></a>

비동기 추론 엔드포인트를 만드는 것은 실시간 추론 엔드포인트를 만드는 것과 비슷합니다. 기존 SageMaker AI 모델을 사용할 수 있으며 `CreateEndpointConfig` API의 `EndpointConfig` 필드를 사용하여 엔드포인트 구성을 만드는 동안 `AsyncInferenceConfig` 객체를 지정하기만 하면 됩니다. 다음 다이어그램은 비동기 추론의 아키텍처 및 워크플로우입니다.

![사용자가 엔드포인트를 호출하는 방식을 보여주는 비동기 추론에 대한 아키텍처 다이어그램입니다.](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/async-architecture.png)


엔드포인트를 호출하려면 Amazon S3에 요청 페이로드를 배치해야 합니다. 또한 `InvokeEndpointAsync` 요청의 일부로 이 페이로드에 포인터를 제공해야 합니다. 간접 호출 시 SageMaker AI는 처리 요청을 대기열에 넣고 식별자와 출력 위치를 응답으로 반환합니다. 처리 시 SageMaker AI는 결과를 Amazon S3 위치에 배치합니다. Amazon SNS를 통해 성공 또는 오류 알림을 수신하도록 선택할 수도 있습니다. 비동기 알림을 설정하는 방법에 대한 자세한 내용은 [예측 결과 검사](async-inference-check-predictions.md) 섹션을 참조하세요.

**참고**  
엔드포인트 구성에 비동기 추론 구성(`AsyncInferenceConfig`) 객체가 있다는 것은 엔드포인트가 비동기 호출만 수신할 수 있다는 것을 의미합니다.

## 어떻게 시작할 수 있습니까?
<a name="async-inference-how-to-get-started"></a>

Amazon SageMaker 비동기 추론을 처음 사용한다면 다음과 같이 할 것을 권장합니다.
+ 비동기 엔드포인트를 생성, 호출, 업데이트, 삭제하는 방법에 대한 자세한 내용은 [비동기 엔드포인트 작업](async-inference-create-invoke-update-delete.md)을 참조하세요.
+ [aws/amazon-sagemaker-examples](https://github.com/aws/amazon-sagemaker-examples) GitHub 리포지토리에서 [비동기 추론 예제 노트북](https://github.com/aws/amazon-sagemaker-examples/blob/main/async-inference/Async-Inference-Walkthrough.ipynb)을 살펴보세요.

참고로 엔드포인트가 이 [제외](deployment-guardrails-exclusions.md) 페이지에 나열된 기능 중 하나를 사용하는 경우 비동기 추론을 사용할 수 없습니다.