View a markdown version of this page

模型部署問題 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

模型部署問題

概觀:本節涵蓋模型部署期間發生的常見問題,包括擱置狀態、失敗的部署和監控部署進度。

模型部署停滯在待定狀態

部署模型時,部署會長時間保持「待定」狀態。這表示推論運算子無法在 HyperPod 叢集中啟動模型部署。

受影響的元件:

在正常部署期間,推論運算子應該:

  • 部署模型 Pod

  • 建立負載平衡器

  • 建立 SageMaker AI 端點

故障診斷步驟:

  1. 檢查推論運算子 Pod 狀態:

    kubectl get pods -n hyperpod-inference-system

    預期的輸出範例:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. 檢閱推論運算子日誌,並檢查運算子日誌是否有錯誤訊息:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

要尋找的內容:

  • 運算子日誌中的錯誤訊息

  • 運算子 Pod 的狀態

  • 任何與部署相關的警告或失敗

注意

運作狀態良好的部署應該會在合理的時間內超過「待定」狀態。如果問題仍然存在,請檢閱推論運算子日誌以取得特定錯誤訊息,以判斷根本原因。

模型部署失敗狀態疑難排解

當模型部署進入「失敗」狀態時,故障可能發生在三個元件的其中之一:

  • 模型 Pod 部署

  • 建立負載平衡器

  • SageMaker AI 端點建立

故障診斷步驟:

  1. 檢查推論運算子狀態:

    kubectl get pods -n hyperpod-inference-system

    預期的輸出結果:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. 檢閱運算子日誌:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

要尋找的內容:

運算子日誌會指出哪個元件失敗:

  • 模型 Pod 部署失敗

  • 負載平衡器建立問題

  • SageMaker AI 端點錯誤

檢查模型部署進度

若要監控模型部署進度並識別潛在問題,您可以使用 kubectl 命令來檢查各種元件的狀態。這有助於判斷部署是否正常進行,或在模型 Pod 建立、負載平衡器設定或 SageMaker AI 端點組態階段期間遇到問題。

方法 1:檢查 JumpStart 模型狀態

kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

要監控的關鍵狀態指示燈:

  1. 部署狀態

    • 尋找 Status.State:應會顯示 DeploymentComplete

    • 檢查 Status.Deployment Status.Available Replicas

    • 監控Status.Conditions部署進度

  2. SageMaker AI 端點狀態

    • 檢查 Status.Endpoints.Sagemaker.State:應會顯示 CreationCompleted

    • 驗證 Status.Endpoints.Sagemaker.Endpoint Arn

  3. TLS 憑證狀態

    • 檢視Status.Tls Certificate詳細資訊

    • 檢查 中的憑證過期 Last Cert Expiry Time

方法 2:檢查推論端點組態

kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

常見狀態狀態:

  • DeploymentInProgress:初始部署階段

  • DeploymentComplete:成功部署

  • Failed:部署失敗

注意

監控事件區段是否有任何警告或錯誤。檢查複本計數是否符合預期的組態。驗證顯示的所有條件Status: True是否可進行正常部署。