Dépannage - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Dépannage

La page suivante contient des solutions connues pour le dépannage de vos clusters HyperPod EKS.

Onglet Dashboard (Tableau de bord)

Échec de l’installation du module complémentaire EKS

Pour que l’installation du module complémentaire EKS réussisse, vous devez disposer d’une version de Kubernetes >= 1.30. Pour effectuer une mise à jour, consultez Mise à jour de la version de Kubernetes.

Pour que l’installation du module complémentaire EKS réussisse, tous les nœuds doivent présenter le statut Prêt et tous les pods doivent présenter le statut En cours d’exécution.

Pour vérifier l'état de vos nœuds, utilisez la list-cluster-nodesAWS CLIcommande ou accédez à votre cluster EKS dans la console EKS et consultez l'état de vos nœuds. Résolvez le problème pour chaque nœud ou contactez votre administrateur. Si le statut du nœud est Inconnu, supprimez le nœud. Une fois que le statut de tous les nœuds est prêt, réessayez d'installer le module complémentaire EKS HyperPod depuis la console Amazon SageMaker AI.

Pour vérifier le statut de vos pods, utilisez la commande CLI Kubernetes kubectl get pods -n cloudwatch-agent ou accédez à votre cluster EKS dans la console EKS et consultez le statut de vos pods avec l’espace de noms cloudwatch-agent. Résolvez le problème relatif aux pods ou contactez votre administrateur pour le résoudre. Une fois que tous les statuts des pods sont en cours d'exécution, réessayez d'installer le module complémentaire EKS HyperPod depuis la console Amazon SageMaker AI.

Pour plus de résolution des problèmes, consultez la section Résolution des problèmes liés au module complémentaire Amazon CloudWatch Observability EKS.

Onglet Tâches

Si le message d’erreur indiquant que la définition de ressource personnalisée (CRD) n’est pas configurée sur le cluster s’affiche, accordez les politiques EKSAdminViewPolicy et ClusterAccessRole à votre rôle d’exécution de domaine.

Stratégies

La liste suivante répertorie les solutions aux erreurs liées aux politiques utilisant la console HyperPod APIs or.

  • Si la politique présente le statut CreateFailed ou CreateRollbackFailed, vous devez supprimer la politique qui a échoué, puis en créer une nouvelle.

  • Si la politique présente le statut UpdateFailed, réessayez la mise à jour avec le même ARN de politique.

  • Si la politique présente le statut UpdateRollbackFailed, vous devez supprimer la politique qui a échoué, puis en créer une nouvelle.

  • Si la politique présente le statut DeleteFailed ou DeleteRollbackFailed, réessayez la suppression avec le même ARN de politique.

    • Si vous avez rencontré une erreur en essayant de supprimer la priorisation de calcul, ou la politique de cluster, à l'aide de la HyperPod console, essayez de la supprimer à l'cluster-scheduler-configaide de l'API. Pour vérifier le statut de la ressource, accédez à la page de détails d’une allocation de calcul.

Pour en savoir plus sur l’échec, utilisez l’API de description.

Suppression de clusters

Les solutions connues aux erreurs liées à la suppression de clusters sont répertoriées ci-dessous.

  • Lorsque la suppression du cluster échoue en raison des politiques de gouvernance des SageMaker HyperPod tâches associées, vous devez le faireSuppression de politiques.

  • Lorsque la suppression du cluster échoue en raison de l’absence des autorisations suivantes, vous devez mettre à jour votre ensemble minimal d’autorisations d’administrateur de cluster. Consultez l’onglet Amazon EKS dans la section Utilisateurs IAM pour l’administrateur de cluster.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig