翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
モデルデプロイの問題
概要: このセクションでは、保留中の状態、失敗したデプロイ、デプロイの進行状況のモニタリングなど、モデルのデプロイ中に発生する一般的な問題について説明します。
モデルデプロイが保留中状態でスタックしました
モデルをデプロイする場合、デプロイは長期間「保留中」状態のままになります。これは、推論演算子が HyperPod クラスターでモデルデプロイを開始できないことを示します。
影響を受けるコンポーネント:
通常のデプロイでは、推論演算子は次のことを行う必要があります。
-
モデルポッドをデプロイする
-
ロードバランサーの作成
-
SageMaker AI エンドポイントを作成する
トラブルシューティングのステップ:
-
推論オペレーターポッドのステータスを確認します。
kubectl get pods -n hyperpod-inference-system予想される出力例:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
推論オペレーターログを確認し、オペレーターログでエラーメッセージを確認します。
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
検索対象:
-
オペレータログのエラーメッセージ
-
オペレータポッドのステータス
-
デプロイ関連の警告または障害
注記
正常なデプロイは、妥当な時間内に「保留中」状態を超えて進行する必要があります。問題が解決しない場合は、推論オペレーターログで特定のエラーメッセージを確認し、根本原因を特定します。
モデルデプロイの失敗状態のトラブルシューティング
モデルデプロイが「失敗」状態になると、次の 3 つのコンポーネントのいずれかで失敗が発生する可能性があります。
-
モデルポッドのデプロイ
-
ロードバランサーの作成
-
SageMaker AI エンドポイントの作成
トラブルシューティングのステップ:
-
推論演算子のステータスを確認します。
kubectl get pods -n hyperpod-inference-system正常な出力:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
オペレーターログを確認します。
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
検索対象:
オペレータログには、失敗したコンポーネントが表示されます。
-
モデルポッドのデプロイの失敗
-
ロードバランサーの作成に関する問題
-
SageMaker AI エンドポイントエラー
モデルのデプロイの進行状況の確認
モデルのデプロイの進行状況をモニタリングし、潜在的な問題を特定するには、kubectl コマンドを使用してさまざまなコンポーネントのステータスを確認できます。これにより、デプロイが正常に進行しているか、モデルポッドの作成、ロードバランサーのセットアップ、または SageMaker AI エンドポイントの設定フェーズ中に問題が発生したかどうかを判断できます。
方法 1: JumpStart モデルのステータスを確認する
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
モニタリングする主要なステータスインジケータ:
-
デプロイのステータス
-
を探す
Status.State: 表示する必要がありますDeploymentComplete -
チェック
Status.Deployment Status.Available Replicas -
デプロイの進行状況をモニタリング
Status.Conditionsする
-
-
SageMaker AI エンドポイントのステータス
-
チェック
Status.Endpoints.Sagemaker.State: 表示する必要がありますCreationCompleted -
検証
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
TLS 証明書のステータス
-
Status.Tls Certificate詳細の表示 -
で証明書の有効期限を確認する
Last Cert Expiry Time
-
方法 2: 推論エンドポイントの設定を確認する
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
一般的なステータス状態:
-
DeploymentInProgress: 初期デプロイフェーズ -
DeploymentComplete: デプロイの成功 -
Failed: デプロイに失敗しました
注記
警告やエラーがないかイベントセクションをモニタリングします。レプリカ数が予想される設定と一致していることを確認します。正常なデプロイStatus: Trueにすべての条件が表示されることを確認します。