本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
模型部署問題
概觀:本節涵蓋模型部署期間發生的常見問題,包括擱置狀態、失敗的部署和監控部署進度。
模型部署停滯在待定狀態
部署模型時,部署會長時間保持「待定」狀態。這表示推論運算子無法在 HyperPod 叢集中啟動模型部署。
受影響的元件:
在正常部署期間,推論運算子應該:
-
部署模型 Pod
-
建立負載平衡器
-
建立 SageMaker AI 端點
故障診斷步驟:
-
檢查推論運算子 Pod 狀態:
kubectl get pods -n hyperpod-inference-system預期的輸出範例:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
檢閱推論運算子日誌,並檢查運算子日誌是否有錯誤訊息:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
要尋找的內容:
-
運算子日誌中的錯誤訊息
-
運算子 Pod 的狀態
-
任何與部署相關的警告或失敗
注意
運作狀態良好的部署應該會在合理的時間內超過「待定」狀態。如果問題仍然存在,請檢閱推論運算子日誌以取得特定錯誤訊息,以判斷根本原因。
模型部署失敗狀態疑難排解
當模型部署進入「失敗」狀態時,故障可能發生在三個元件的其中之一:
-
模型 Pod 部署
-
建立負載平衡器
-
SageMaker AI 端點建立
故障診斷步驟:
-
檢查推論運算子狀態:
kubectl get pods -n hyperpod-inference-system預期的輸出結果:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
檢閱運算子日誌:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
要尋找的內容:
運算子日誌會指出哪個元件失敗:
-
模型 Pod 部署失敗
-
負載平衡器建立問題
-
SageMaker AI 端點錯誤
檢查模型部署進度
若要監控模型部署進度並識別潛在問題,您可以使用 kubectl 命令來檢查各種元件的狀態。這有助於判斷部署是否正常進行,或在模型 Pod 建立、負載平衡器設定或 SageMaker AI 端點組態階段期間遇到問題。
方法 1:檢查 JumpStart 模型狀態
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
要監控的關鍵狀態指示燈:
-
部署狀態
-
尋找
Status.State:應會顯示DeploymentComplete -
檢查
Status.Deployment Status.Available Replicas -
監控
Status.Conditions部署進度
-
-
SageMaker AI 端點狀態
-
檢查
Status.Endpoints.Sagemaker.State:應會顯示CreationCompleted -
驗證
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
TLS 憑證狀態
-
檢視
Status.Tls Certificate詳細資訊 -
檢查 中的憑證過期
Last Cert Expiry Time
-
方法 2:檢查推論端點組態
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
常見狀態狀態:
-
DeploymentInProgress:初始部署階段 -
DeploymentComplete:成功部署 -
Failed:部署失敗
注意
監控事件區段是否有任何警告或錯誤。檢查複本計數是否符合預期的組態。驗證顯示的所有條件Status: True是否可進行正常部署。