模型部署問題

概觀：本節涵蓋模型部署期間發生的常見問題，包括擱置狀態、失敗的部署和監控部署進度。

模型部署停滯在待定狀態

部署模型時，部署會長時間保持「待定」狀態。這表示推論運算子無法在 HyperPod 叢集中啟動模型部署。

受影響的元件：

在正常部署期間，推論運算子應該：

部署模型 Pod
建立負載平衡器
建立 SageMaker AI 端點

故障診斷步驟：

檢查推論運算子 Pod 狀態：


kubectl get pods -n hyperpod-inference-system

預期的輸出範例：


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

檢閱推論運算子日誌，並檢查運算子日誌是否有錯誤訊息：


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

要尋找的內容：

運算子日誌中的錯誤訊息
運算子 Pod 的狀態
任何部署相關的警告或失敗

注意

運作狀態良好的部署應該會在合理的時間內超過「待定」狀態。如果問題仍然存在，請檢閱推論運算子日誌以取得特定錯誤訊息，以判斷根本原因。

模型部署失敗狀態疑難排解

當模型部署進入「失敗」狀態時，失敗可能發生在三個元件的其中之一：

模型 Pod 部署
建立負載平衡器
SageMaker AI 端點建立

故障診斷步驟：

檢查推論運算子狀態：


kubectl get pods -n hyperpod-inference-system

預期的輸出結果：


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

檢閱運算子日誌：


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

要尋找的內容：

運算子日誌會指出哪個元件失敗：

模型 Pod 部署失敗
負載平衡器建立問題
SageMaker AI 端點錯誤

檢查模型部署進度

若要監控模型部署進度並識別潛在問題，您可以使用 kubectl 命令來檢查各種元件的狀態。這有助於判斷部署是否正常進行，或在模型 Pod 建立、負載平衡器設定或 SageMaker AI 端點組態階段期間遇到問題。

方法 1：檢查 JumpStart 模型狀態


kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

要監控的關鍵狀態指示燈：

部署狀態
- 尋找 Status.State：應會顯示 DeploymentComplete
- 檢查 Status.Deployment Status.Available Replicas
- 監控Status.Conditions部署進度
SageMaker AI 端點狀態
- 檢查 Status.Endpoints.Sagemaker.State：應會顯示 CreationCompleted
- 驗證 Status.Endpoints.Sagemaker.Endpoint Arn
TLS 憑證狀態
- 檢視Status.Tls Certificate詳細資訊
- 檢查中的憑證過期 Last Cert Expiry Time

方法 2：檢查推論端點組態


kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

常見狀態狀態：

DeploymentInProgress：初始部署階段
DeploymentComplete：成功部署
Failed：部署失敗

注意

監控事件區段是否有任何警告或錯誤。檢查複本計數是否符合預期的組態。確認Status: True針對運作狀態良好的部署顯示所有條件。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

憑證下載逾時

VPC ENI 許可問題