

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# モデルデプロイの問題
<a name="sagemaker-hyperpod-model-deployment-ts-deployment-issues"></a>

**概要:** このセクションでは、保留中の状態、失敗したデプロイ、デプロイの進行状況のモニタリングなど、モデルのデプロイ中に発生する一般的な問題について説明します。

## モデルデプロイが保留中状態でスタックしました
<a name="sagemaker-hyperpod-model-deployment-ts-pending"></a>

モデルをデプロイする場合、デプロイは長期間「保留中」状態のままになります。これは、推論演算子が HyperPod クラスターでモデルデプロイを開始できないことを示します。

**影響を受けるコンポーネント:**

通常のデプロイでは、推論演算子は次のことを行う必要があります。
+ モデルポッドをデプロイする
+ ロードバランサーの作成
+ SageMaker AI エンドポイントを作成する

**トラブルシューティングのステップ:**

1. 推論オペレーターポッドのステータスを確認します。

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   予想される出力例:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. 推論オペレーターログを確認し、オペレーターログでエラーメッセージを確認します。

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**検索対象:**
+ オペレータログのエラーメッセージ
+ オペレータポッドのステータス
+ デプロイ関連の警告または障害

**注記**  
正常なデプロイは、妥当な時間内に「保留中」状態を超えて進行する必要があります。問題が解決しない場合は、推論オペレーターログで特定のエラーメッセージを確認し、根本原因を特定します。

## モデルデプロイの失敗状態のトラブルシューティング
<a name="sagemaker-hyperpod-model-deployment-ts-failed"></a>

モデルデプロイが「失敗」状態になると、次の 3 つのコンポーネントのいずれかで失敗が発生する可能性があります。
+ モデルポッドのデプロイ
+ ロードバランサーの作成
+ SageMaker AI エンドポイントの作成

**トラブルシューティングのステップ:**

1. 推論演算子のステータスを確認します。

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   正常な出力:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. オペレーターログを確認します。

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**検索対象:**

オペレータログには、失敗したコンポーネントが表示されます。
+ モデルポッドのデプロイの失敗
+ ロードバランサーの作成に関する問題
+ SageMaker AI エンドポイントエラー

## モデルのデプロイの進行状況の確認
<a name="sagemaker-hyperpod-model-deployment-ts-progress"></a>

モデルのデプロイの進行状況をモニタリングし、潜在的な問題を特定するには、kubectl コマンドを使用してさまざまなコンポーネントのステータスを確認できます。これにより、デプロイが正常に進行しているか、モデルポッドの作成、ロードバランサーのセットアップ、または SageMaker AI エンドポイントの設定フェーズ中に問題が発生したかどうかを判断できます。

**方法 1: JumpStart モデルのステータスを確認する**

```
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
```

**モニタリングする主要なステータスインジケータ:**

1. デプロイのステータス
   + を探す`Status.State`: 表示する必要があります `DeploymentComplete`
   + チェック `Status.Deployment Status.Available Replicas`
   + デプロイの進行状況をモニタリング`Status.Conditions`する

1. SageMaker AI エンドポイントのステータス
   + チェック`Status.Endpoints.Sagemaker.State`: 表示する必要があります `CreationCompleted`
   + 検証 `Status.Endpoints.Sagemaker.Endpoint Arn`

1. TLS 証明書のステータス
   + `Status.Tls Certificate` 詳細の表示
   + で証明書の有効期限を確認する `Last Cert Expiry Time`

**方法 2: 推論エンドポイントの設定を確認する**

```
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
```

**一般的なステータス状態:**
+ `DeploymentInProgress`: 初期デプロイフェーズ
+ `DeploymentComplete`: デプロイの成功
+ `Failed`: デプロイに失敗しました

**注記**  
警告やエラーがないかイベントセクションをモニタリングします。レプリカ数が予想される設定と一致していることを確認します。正常なデプロイ`Status: True`にすべての条件が表示されることを確認します。