

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Problèmes liés au déploiement du modèle
<a name="sagemaker-hyperpod-model-deployment-ts-deployment-issues"></a>

**Présentation :** cette section couvre les problèmes courants qui surviennent lors du déploiement du modèle, notamment les états en attente, les échecs de déploiement et le suivi de la progression du déploiement.

## Déploiement du modèle bloqué en attente
<a name="sagemaker-hyperpod-model-deployment-ts-pending"></a>

Lors du déploiement d'un modèle, le déploiement reste dans l'état « En attente » pendant une période prolongée. Cela indique que l'opérateur d'inférence n'est pas en mesure de lancer le déploiement du modèle dans votre HyperPod cluster.

**Composants concernés :**

Lors d'un déploiement normal, l'opérateur d'inférence doit :
+ Déployer le modèle Pod
+ Création d'un équilibreur de charge
+ Créer un point de terminaison SageMaker AI

**Étapes de résolution des problèmes :**

1. Vérifiez l'état du module de l'opérateur d'inférence :

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   Exemple de sortie attendue :

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. Consultez les journaux des opérateurs d'inférence et examinez les journaux des opérateurs pour détecter les messages d'erreur :

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**Ce qu'il faut rechercher :**
+ Messages d'erreur dans les journaux de l'opérateur
+ État du module de commande
+ Tout avertissement ou échec lié au déploiement

**Note**  
Un déploiement sain doit dépasser l'état « En attente » dans un délai raisonnable. Si les problèmes persistent, consultez les journaux des opérateurs d'inférence pour détecter les messages d'erreur spécifiques afin d'en déterminer la cause première.

## Résolution des problèmes d'état d'échec du déploiement du modèle
<a name="sagemaker-hyperpod-model-deployment-ts-failed"></a>

Lorsqu'un déploiement de modèle passe à l'état « Échec », l'échec peut se produire dans l'un des trois composants suivants :
+ Déploiement du Model Pod
+ Création d'un équilibreur de charge
+ SageMaker Création de points de terminaison AI

**Étapes de résolution des problèmes :**

1. Vérifiez le statut de l'opérateur d'inférence :

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   Sortie attendue :

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. Consultez les journaux des opérateurs :

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**Ce qu'il faut rechercher :**

Les journaux de l'opérateur indiqueront quel composant a échoué :
+ Défaillances de déploiement du Model Pod
+ Problèmes de création d'un équilibreur de charge
+ SageMaker Erreurs liées aux terminaux de l'IA

## Vérification de la progression du déploiement du modèle
<a name="sagemaker-hyperpod-model-deployment-ts-progress"></a>

Pour suivre la progression du déploiement de votre modèle et identifier les problèmes potentiels, vous pouvez utiliser les commandes kubectl pour vérifier l'état des différents composants. Cela permet de déterminer si le déploiement progresse normalement ou s'il a rencontré des problèmes lors de la création du module de modélisation, de la configuration de l'équilibreur de charge ou des phases de configuration des terminaux SageMaker AI.

**Méthode 1 : vérifier l'état du JumpStart modèle**

```
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
```

**Indicateurs de statut clés à surveiller :**

1. Statut du déploiement
   + Rechercher `Status.State` : Devrait montrer `DeploymentComplete`
   + Vérifiez `Status.Deployment Status.Available Replicas`
   + Surveiller `Status.Conditions` la progression du déploiement

1. SageMaker État du point de terminaison AI
   + Vérifiez `Status.Endpoints.Sagemaker.State` : Devrait s'afficher `CreationCompleted`
   + Vérifiez `Status.Endpoints.Sagemaker.Endpoint Arn`

1. État du certificat TLS
   + Afficher les `Status.Tls Certificate` détails
   + Vérifiez l'expiration du certificat dans `Last Cert Expiry Time`

**Méthode 2 : vérifier la configuration du point de terminaison d'inférence**

```
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
```

**Le statut commun stipule :**
+ `DeploymentInProgress`: Phase de déploiement initiale
+ `DeploymentComplete`: Déploiement réussi
+ `Failed`: échec du déploiement

**Note**  
Surveillez la section Événements pour détecter tout avertissement ou erreur. Vérifiez que le nombre de répliques correspond à la configuration attendue. Vérifiez que toutes les conditions sont réunies `Status: True` pour un déploiement sain.