패턴 1: 서버리스 ML 추론 파이프라인 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

패턴 1: 서버리스 ML 추론 파이프라인

많은 엔터프라이즈 환경에서 팀은 사용자 피드백을 분류하거나, 수신되는 원격 측정에서 이상을 감지하거나, 위험을 실시간으로 채점하는 등 운영 워크플로에 AI를 주입해야 합니다. 이러한 기계 학습(ML) 기반 기능은 고객 대면 애플리케이션, 모바일 앱 또는 내부 자동화 시스템에 포함되는 경우가 많습니다.

그러나 기존 ML 추론 워크로드에는 일반적으로 다음이 필요합니다.

  • Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스 및 컨테이너와 같은 사전 프로비저닝된 컴퓨팅

  • 수동 조정 정책

  • 유휴 상태인 경우에도 영구 인프라

  • 복잡한 배포 및 모니터링 파이프라인

이러한 요구 사항으로 인해 다음이 발생합니다.

  • 산발적 추론을 위한 사용률이 낮은 리소스

  • 모델 버전 관리, 장애 조치 및 오토 스케일링의 운영 복잡성

  • 특히 빈도가 낮거나 급증하는 워크로드의 경우 비용 증가

또한 엔지니어링 팀은 이러한 복잡성을 유지하기 위한 전문 ML 인프라 기술이 부족한 경우가 많으며 AI 채택은 프로토타입 단계에서 중단됩니다.

서버리스 ML 추론 패턴: 경량, 이벤트 기반, 확장 가능

서버리스 ML 추론 파이프라인 패턴은 완전 관리형 이벤트 기반 AWS 서비스 를 사용하여 인프라 부담을 제거합니다. 이 접근 방식을 사용하면 필요할 때만 트리거 및 실행되고 수요에 따라 자동으로 확장되는 추론 워크플로를 사용할 수 있습니다.

이 패턴은 다음 작업을 수행하는 데 적합합니다.

  • Amazon SageMaker 또는 로컬에서 훈련된 경량 ML 모델을 실행합니다.

  • 분류, 채점 또는 변환을 거의 실시간으로 수행합니다.

  • 마이크로서비스, APIs 또는 데이터 수집 파이프라인에 ML 로직을 포함합니다.

참조 아키텍처는 다음과 같이 각 계층을 구현합니다.

  • 이벤트 트리거 - 사용자 요청에 Amazon API Gateway를 사용하고, 비즈니스 이벤트에 Amazon EventBridge를 사용하고, 데이터 업로드에 Amazon S3를 사용합니다.

  • 처리 계층 - 입력을 정규화하고, 스키마를 검증하고, 메타데이터를 보강AWS Lambda하는를 구현합니다.

  • 추론 계층 - SageMaker Serverless Inference 엔드포인트를 배포하여 분류, 회귀 또는 채점을 수행합니다.

  • 사후 처리 - Lambda를 사용하여 응답의 형식을 지정하고, 로그를 저장하고, 새 이벤트를 내보냅니다.

  • 출력 - API Gateway를 구현하여 결과를 사용자에게 반환하거나 다운스트림 처리를 위해 EventBridge에 이벤트를 게시합니다.

참고

이 전체 파이프라인은 버전이 지정되고 관찰 가능한 AWS Cloud Development Kit (AWS CDK) 또는 ()를 사용하여 코드형 인프라 AWS Serverless Application Model (IaC AWS SAM)로 배포할 수 있습니다.

사용 사례: 고객 피드백에 대한 감정 분류

글로벌 전자 상거래 회사는 제품 리뷰 또는 지원 티켓에 남아 있는 고객 피드백을 분류하여 손상 요인을 조기에 식별하고 후속 조치의 우선순위를 지정하려고 합니다. 분류 시스템은 다음 요구 사항을 충족해야 합니다.

  • 트래픽은 캠페인 기간 동안 스파이크와 함께 매우 가변적입니다.

  • 추론은 지원 분류 시스템과 통합하려면 실시간으로 이루어져야 합니다.

  • 모델은 가볍고(100ms 추론 지연 시간) SageMaker에서 훈련되었습니다.

이 사용 사례의 경우 서버리스 추론 파이프라인 솔루션은 다음 단계로 구성됩니다.

  1. 사용자 피드백은 API Gateway에 제출되고 EventBridge로 전송됩니다.

  2. Lambda는 텍스트 페이로드를 사전 처리하고 형식을 지정합니다.

  3. SageMaker Serverless Inference 엔드포인트는 감정 분류 모델을 실행합니다.

  4. Lambda는 "부정" 결과를 지원 에스컬레이션 대기열로 라우팅합니다.

  5. 결과는 분석 및 재학습을 위해 Amazon DynamoDB에 기록됩니다.

서버리스 ML 추론 파이프라인의 비즈니스 가치

서버리스 ML 추론 파이프라인은 다음 영역에서 가치를 제공합니다.

  • 확장성 - 수동 튜닝 없이 분당 수천 개의 추론으로 자동 확장

  • 비용 효율성 - 유휴 기간 동안 비용 없이 실행 시간에 대해서만 지불합니다.

  • 개발자 속도 - 팀이 인프라를 관리하지 않고도 end-to-end AI 추론 워크플로를 배포할 수 있습니다.

  • 복원력 - 견고성을 보장하기 위해 기본 제공 재시도, 로깅 및 상태 비저장 실행 제공

  • 관찰성 - Amazon CloudWatch 및를 사용하여 모델 사용량, 입력 및 출력 볼륨, 지연 시간을 모니터링합니다. AWS X-Ray

서버리스 ML 추론 파이프라인은 AI를 증분적이고 실용적으로 채택하려는 많은 조직의 진입점입니다. 이는 다음 목표를 달성하는 데 이상적인 패턴입니다.

  • 지연 시간이 짧은 실시간 AI

  • 기존 ML 모델의 비용 효율적인 배포

  • 최신 서버리스 및 이벤트 기반 시스템과의 원활한 통합

팀은 인프라를 추상화하여 운영 제어 또는 확장성을 희생하지 않고 비즈니스 로직, 모델 정확도 및 실제 가치 제공에 집중할 수 있습니다.