View a markdown version of this page

モデルデプロイの問題 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

モデルデプロイの問題

概要: このセクションでは、保留中の状態、失敗したデプロイ、デプロイの進行状況のモニタリングなど、モデルのデプロイ中に発生する一般的な問題について説明します。

モデルデプロイが保留中状態でスタックしました

モデルをデプロイする場合、デプロイは長期間「保留中」状態のままになります。これは、推論演算子が HyperPod クラスターでモデルデプロイを開始できないことを示します。

影響を受けるコンポーネント:

通常のデプロイでは、推論演算子は次のことを行う必要があります。

  • モデルポッドをデプロイする

  • ロードバランサーの作成

  • SageMaker AI エンドポイントを作成する

トラブルシューティングのステップ:

  1. 推論オペレーターポッドのステータスを確認します。

    kubectl get pods -n hyperpod-inference-system

    予想される出力例:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. 推論オペレーターログを確認し、オペレーターログでエラーメッセージを確認します。

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

検索対象:

  • オペレータログのエラーメッセージ

  • オペレータポッドのステータス

  • デプロイ関連の警告または障害

注記

正常なデプロイは、妥当な時間内に「保留中」状態を超えて進行する必要があります。問題が解決しない場合は、推論オペレーターログで特定のエラーメッセージを確認し、根本原因を特定します。

モデルデプロイの失敗状態のトラブルシューティング

モデルデプロイが「失敗」状態になると、次の 3 つのコンポーネントのいずれかで失敗が発生する可能性があります。

  • モデルポッドのデプロイ

  • ロードバランサーの作成

  • SageMaker AI エンドポイントの作成

トラブルシューティングのステップ:

  1. 推論演算子のステータスを確認します。

    kubectl get pods -n hyperpod-inference-system

    正常な出力:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. オペレーターログを確認します。

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

検索対象:

オペレータログには、失敗したコンポーネントが表示されます。

  • モデルポッドのデプロイの失敗

  • ロードバランサーの作成に関する問題

  • SageMaker AI エンドポイントエラー

モデルのデプロイの進行状況の確認

モデルのデプロイの進行状況をモニタリングし、潜在的な問題を特定するには、kubectl コマンドを使用してさまざまなコンポーネントのステータスを確認できます。これにより、デプロイが正常に進行しているか、モデルポッドの作成、ロードバランサーのセットアップ、または SageMaker AI エンドポイントの設定フェーズ中に問題が発生したかどうかを判断できます。

方法 1: JumpStart モデルのステータスを確認する

kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

モニタリングする主要なステータスインジケータ:

  1. デプロイのステータス

    • を探すStatus.State: 表示する必要があります DeploymentComplete

    • チェック Status.Deployment Status.Available Replicas

    • デプロイの進行状況をモニタリングStatus.Conditionsする

  2. SageMaker AI エンドポイントのステータス

    • チェックStatus.Endpoints.Sagemaker.State: 表示する必要があります CreationCompleted

    • 検証 Status.Endpoints.Sagemaker.Endpoint Arn

  3. TLS 証明書のステータス

    • Status.Tls Certificate 詳細の表示

    • で証明書の有効期限を確認する Last Cert Expiry Time

方法 2: 推論エンドポイントの設定を確認する

kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

一般的なステータス状態:

  • DeploymentInProgress: 初期デプロイフェーズ

  • DeploymentComplete: デプロイの成功

  • Failed: デプロイに失敗しました

注記

警告やエラーがないかイベントセクションをモニタリングします。レプリカ数が予想される設定と一致していることを確認します。正常なデプロイStatus: Trueにすべての条件が表示されることを確認します。