

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 模型部署問題
<a name="sagemaker-hyperpod-model-deployment-ts-deployment-issues"></a>

**概觀：**本節涵蓋模型部署期間發生的常見問題，包括擱置狀態、失敗的部署和監控部署進度。

## 模型部署停滯在待定狀態
<a name="sagemaker-hyperpod-model-deployment-ts-pending"></a>

部署模型時，部署會長時間保持「待定」狀態。這表示推論運算子無法在 HyperPod 叢集中啟動模型部署。

**受影響的元件：**

在正常部署期間，推論運算子應該：
+ 部署模型 Pod
+ 建立負載平衡器
+ 建立 SageMaker AI 端點

**故障診斷步驟：**

1. 檢查推論運算子 Pod 狀態：

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   預期的輸出範例：

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. 檢閱推論運算子日誌，並檢查運算子日誌是否有錯誤訊息：

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**要尋找的內容：**
+ 運算子日誌中的錯誤訊息
+ 運算子 Pod 的狀態
+ 任何與部署相關的警告或失敗

**注意**  
運作狀態良好的部署應該會在合理的時間內超過「待定」狀態。如果問題仍然存在，請檢閱推論運算子日誌以取得特定錯誤訊息，以判斷根本原因。

## 模型部署失敗狀態疑難排解
<a name="sagemaker-hyperpod-model-deployment-ts-failed"></a>

當模型部署進入「失敗」狀態時，故障可能發生在三個元件的其中之一：
+ 模型 Pod 部署
+ 建立負載平衡器
+ SageMaker AI 端點建立

**故障診斷步驟：**

1. 檢查推論運算子狀態：

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   預期的輸出結果：

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. 檢閱運算子日誌：

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**要尋找的內容：**

運算子日誌會指出哪個元件失敗：
+ 模型 Pod 部署失敗
+ 負載平衡器建立問題
+ SageMaker AI 端點錯誤

## 檢查模型部署進度
<a name="sagemaker-hyperpod-model-deployment-ts-progress"></a>

若要監控模型部署進度並識別潛在問題，您可以使用 kubectl 命令來檢查各種元件的狀態。這有助於判斷部署是否正常進行，或在模型 Pod 建立、負載平衡器設定或 SageMaker AI 端點組態階段期間遇到問題。

**方法 1：檢查 JumpStart 模型狀態**

```
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
```

**要監控的關鍵狀態指示燈：**

1. 部署狀態
   + 尋找 `Status.State`：應會顯示 `DeploymentComplete`
   + 檢查 `Status.Deployment Status.Available Replicas`
   + 監控`Status.Conditions`部署進度

1. SageMaker AI 端點狀態
   + 檢查 `Status.Endpoints.Sagemaker.State`：應會顯示 `CreationCompleted`
   + 驗證 `Status.Endpoints.Sagemaker.Endpoint Arn`

1. TLS 憑證狀態
   + 檢視`Status.Tls Certificate`詳細資訊
   + 檢查 中的憑證過期 `Last Cert Expiry Time`

**方法 2：檢查推論端點組態**

```
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
```

**常見狀態狀態：**
+ `DeploymentInProgress`：初始部署階段
+ `DeploymentComplete`：成功部署
+ `Failed`：部署失敗

**注意**  
監控事件區段是否有任何警告或錯誤。檢查複本計數是否符合預期的組態。驗證顯示的所有條件`Status: True`是否可進行正常部署。