View a markdown version of this page

모델 배포 문제 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 배포 문제

개요:이 섹션에서는 보류 중 상태, 실패한 배포, 배포 진행 상황 모니터링을 포함하여 모델 배포 중에 발생하는 일반적인 문제를 다룹니다.

모델 배포가 보류 중 상태로 멈춤

모델을 배포할 때 배포는 장기간 "보류 중" 상태로 유지됩니다. 이는 추론 연산자가 HyperPod 클러스터에서 모델 배포를 시작할 수 없음을 나타냅니다.

영향을 받는 구성 요소:

정상적인 배포 중에 추론 연산자는 다음을 수행해야 합니다.

  • 모델 포드 배포

  • 로드 밸런서 생성

  • SageMaker AI 엔드포인트 생성

문제 해결 단계:

  1. 추론 연산자 포드 상태를 확인합니다.

    kubectl get pods -n hyperpod-inference-system

    예상 출력 예제:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. 추론 연산자 로그를 검토하고 연산자 로그에서 오류 메시지를 검사합니다.

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

찾아야 할 사항:

  • 연산자 로그의 오류 메시지

  • 연산자 포드의 상태

  • 배포 관련 경고 또는 실패

참고

정상 배포는 적절한 시간 내에 "보류 중" 상태를 넘어 진행되어야 합니다. 문제가 지속되면 추론 연산자 로그에서 특정 오류 메시지를 검토하여 근본 원인을 확인합니다.

모델 배포 실패 상태 문제 해결

모델 배포가 "실패" 상태가 되면 다음 세 가지 구성 요소 중 하나에서 오류가 발생할 수 있습니다.

  • 모델 포드 배포

  • 로드 밸런서 생성

  • SageMaker AI 엔드포인트 생성

문제 해결 단계:

  1. 추론 연산자 상태를 확인합니다.

    kubectl get pods -n hyperpod-inference-system

    예상 결과:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. 연산자 로그를 검토합니다.

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

찾아야 할 사항:

연산자 로그에는 실패한 구성 요소가 표시됩니다.

  • 모델 포드 배포 실패

  • 로드 밸런서 생성 문제

  • SageMaker AI 엔드포인트 오류

모델 배포 진행 상황 확인

모델 배포 진행 상황을 모니터링하고 잠재적 문제를 식별하려면 kubectl 명령을 사용하여 다양한 구성 요소의 상태를 확인할 수 있습니다. 이를 통해 배포가 정상적으로 진행 중인지 또는 모델 포드 생성, 로드 밸런서 설정 또는 SageMaker AI 엔드포인트 구성 단계에서 문제가 발생했는지 확인할 수 있습니다.

방법 1: JumpStart 모델 상태 확인

kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

모니터링할 주요 상태 표시기:

  1. 배포 상태

    • 찾기Status.State: 표시해야 함 DeploymentComplete

    • 확인 Status.Deployment Status.Available Replicas

    • Status.Conditions 배포 진행 상황 모니터링

  2. SageMaker AI 엔드포인트 상태

    • 확인Status.Endpoints.Sagemaker.State: 표시해야 함 CreationCompleted

    • 확인 Status.Endpoints.Sagemaker.Endpoint Arn

  3. TLS 인증서 상태

    • Status.Tls Certificate 세부 정보 보기

    • 에서 인증서 만료 확인 Last Cert Expiry Time

방법 2: 추론 엔드포인트 구성 확인

kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

일반 상태:

  • DeploymentInProgress: 초기 배포 단계

  • DeploymentComplete: 배포 성공

  • Failed: 배포 실패

참고

이벤트 섹션에서 경고 또는 오류를 모니터링합니다. 복제본 수가 예상 구성과 일치하는지 확인합니다. 모든 조건이 정상 배포에 Status: True 대해 표시되는지 확인합니다.