Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Dépannage
La page suivante contient des solutions connues pour le dépannage de vos clusters HyperPod EKS.
Onglet Dashboard (Tableau de bord)
Échec de l’installation du module complémentaire EKS
Pour que l’installation du module complémentaire EKS réussisse, vous devez disposer d’une version de Kubernetes >= 1.30. Pour effectuer une mise à jour, consultez Mise à jour de la version de Kubernetes.
Pour que l’installation du module complémentaire EKS réussisse, tous les nœuds doivent présenter le statut Prêt et tous les pods doivent présenter le statut En cours d’exécution.
Pour vérifier l'état de vos nœuds, utilisez la list-cluster-nodesAWS CLIcommande ou accédez à votre cluster EKS dans la console EKS
Pour vérifier le statut de vos pods, utilisez la commande CLI Kuberneteskubectl get pods -n cloudwatch-agent ou accédez à votre cluster EKS dans la console EKScloudwatch-agent. Résolvez le problème relatif aux pods ou contactez votre administrateur pour le résoudre. Une fois que tous les statuts des pods sont en cours d'exécution, réessayez d'installer le module complémentaire EKS HyperPod depuis la console Amazon SageMaker AI
Pour plus de résolution des problèmes, consultez la section Résolution des problèmes liés au module complémentaire Amazon CloudWatch Observability EKS.
Onglet Tâches
Si le message d’erreur indiquant que la définition de ressource personnalisée (CRD) n’est pas configurée sur le cluster s’affiche, accordez les politiques EKSAdminViewPolicy et ClusterAccessRole à votre rôle d’exécution de domaine.
-
Pour en savoir plus sur la façon d’obtenir votre rôle d’exécution, consultez Obtention de votre rôle d’exécution.
-
Pour découvrir comment attacher des politiques à un utilisateur ou à un groupe IAM, consultez Ajout et suppression d’autorisations basées sur l’identité IAM.
Stratégies
La liste suivante répertorie les solutions aux erreurs liées aux politiques utilisant la console HyperPod APIs or.
-
Si la politique présente le statut
CreateFailedouCreateRollbackFailed, vous devez supprimer la politique qui a échoué, puis en créer une nouvelle. -
Si la politique présente le statut
UpdateFailed, réessayez la mise à jour avec le même ARN de politique. -
Si la politique présente le statut
UpdateRollbackFailed, vous devez supprimer la politique qui a échoué, puis en créer une nouvelle. -
Si la politique présente le statut
DeleteFailedouDeleteRollbackFailed, réessayez la suppression avec le même ARN de politique.-
Si vous avez rencontré une erreur en essayant de supprimer la priorisation de calcul, ou la politique de cluster, à l'aide de la HyperPod console, essayez de la supprimer à l'
cluster-scheduler-configaide de l'API. Pour vérifier le statut de la ressource, accédez à la page de détails d’une allocation de calcul.
-
Pour en savoir plus sur l’échec, utilisez l’API de description.
Suppression de clusters
Les solutions connues aux erreurs liées à la suppression de clusters sont répertoriées ci-dessous.
-
Lorsque la suppression du cluster échoue en raison des politiques de gouvernance des SageMaker HyperPod tâches associées, vous devez le faireSuppression de politiques.
-
Lorsque la suppression du cluster échoue en raison de l’absence des autorisations suivantes, vous devez mettre à jour votre ensemble minimal d’autorisations d’administrateur de cluster. Consultez l’onglet Amazon EKS dans la section Utilisateurs IAM pour l’administrateur de cluster.
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-