

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 모델 배포 문제
<a name="sagemaker-hyperpod-model-deployment-ts-deployment-issues"></a>

**개요:**이 섹션에서는 보류 중 상태, 실패한 배포, 배포 진행 상황 모니터링을 포함하여 모델 배포 중에 발생하는 일반적인 문제를 다룹니다.

## 모델 배포가 보류 중 상태로 멈춤
<a name="sagemaker-hyperpod-model-deployment-ts-pending"></a>

모델을 배포할 때 배포는 장기간 "보류 중" 상태로 유지됩니다. 이는 추론 연산자가 HyperPod 클러스터에서 모델 배포를 시작할 수 없음을 나타냅니다.

**영향을 받는 구성 요소:**

정상적인 배포 중에 추론 연산자는 다음을 수행해야 합니다.
+ 모델 포드 배포
+ 로드 밸런서 생성
+ SageMaker AI 엔드포인트 생성

**문제 해결 단계:**

1. 추론 연산자 포드 상태를 확인합니다.

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   예상 출력 예제:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. 추론 연산자 로그를 검토하고 연산자 로그에서 오류 메시지를 검사합니다.

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**찾아야 할 사항:**
+ 연산자 로그의 오류 메시지
+ 연산자 포드의 상태
+ 배포 관련 경고 또는 실패

**참고**  
정상 배포는 적절한 시간 내에 "보류 중" 상태를 넘어 진행되어야 합니다. 문제가 지속되면 추론 연산자 로그에서 특정 오류 메시지를 검토하여 근본 원인을 확인합니다.

## 모델 배포 실패 상태 문제 해결
<a name="sagemaker-hyperpod-model-deployment-ts-failed"></a>

모델 배포가 "실패" 상태가 되면 다음 세 가지 구성 요소 중 하나에서 오류가 발생할 수 있습니다.
+ 모델 포드 배포
+ 로드 밸런서 생성
+ SageMaker AI 엔드포인트 생성

**문제 해결 단계:**

1. 추론 연산자 상태를 확인합니다.

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   예상 결과:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. 연산자 로그를 검토합니다.

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**찾아야 할 사항:**

연산자 로그에는 실패한 구성 요소가 표시됩니다.
+ 모델 포드 배포 실패
+ 로드 밸런서 생성 문제
+ SageMaker AI 엔드포인트 오류

## 모델 배포 진행 상황 확인
<a name="sagemaker-hyperpod-model-deployment-ts-progress"></a>

모델 배포 진행 상황을 모니터링하고 잠재적 문제를 식별하려면 kubectl 명령을 사용하여 다양한 구성 요소의 상태를 확인할 수 있습니다. 이를 통해 배포가 정상적으로 진행 중인지 또는 모델 포드 생성, 로드 밸런서 설정 또는 SageMaker AI 엔드포인트 구성 단계에서 문제가 발생했는지 확인할 수 있습니다.

**방법 1: JumpStart 모델 상태 확인**

```
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
```

**모니터링할 주요 상태 표시기:**

1. 배포 상태
   + 찾기`Status.State`: 표시해야 함 `DeploymentComplete`
   + 확인 `Status.Deployment Status.Available Replicas`
   + `Status.Conditions` 배포 진행 상황 모니터링

1. SageMaker AI 엔드포인트 상태
   + 확인`Status.Endpoints.Sagemaker.State`: 표시해야 함 `CreationCompleted`
   + 확인 `Status.Endpoints.Sagemaker.Endpoint Arn`

1. TLS 인증서 상태
   + `Status.Tls Certificate` 세부 정보 보기
   + 에서 인증서 만료 확인 `Last Cert Expiry Time`

**방법 2: 추론 엔드포인트 구성 확인**

```
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
```

**일반 상태:**
+ `DeploymentInProgress`: 초기 배포 단계
+ `DeploymentComplete`: 배포 성공
+ `Failed`: 배포 실패

**참고**  
이벤트 섹션에서 경고 또는 오류를 모니터링합니다. 복제본 수가 예상 구성과 일치하는지 확인합니다. 모든 조건이 정상 배포에 `Status: True` 대해 표시되는지 확인합니다.