Dépannage - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Dépannage

La page suivante contient des solutions connues pour le dépannage de vos clusters HyperPod EKS.

Onglet Dashboard (Tableau de bord)

L'extension EKS ne parvient pas à s'installer

Pour que l'installation du module complémentaire EKS réussisse, vous devez disposer d'une version Kubernets supérieure ou égale à 1.30. Pour effectuer une mise à jour, voir Mettre à jour la version de Kubernetes.

Pour que l'installation du module complémentaire EKS réussisse, tous les nœuds doivent être en état Ready et tous les pods doivent être en état Running.

Pour vérifier l'état de vos nœuds, utilisez la list-cluster-nodes AWS CLI commande ou accédez à votre cluster EKS dans la console EKS et consultez l'état de vos nœuds. Résolvez le problème pour chaque nœud ou contactez votre administrateur. Si le statut du nœud est Inconnu, supprimez-le. Une fois que le statut de tous les nœuds est prêt, réessayez d'installer le module complémentaire EKS HyperPod depuis la console Amazon SageMaker AI.

Pour vérifier l'état de vos pods, utilisez la kubectl get pods -n cloudwatch-agent commande Kubernetes CLI ou accédez à votre cluster EKS dans la console EKS et consultez l'état de vos pods avec l'espace de noms. cloudwatch-agent Résolvez le problème relatif aux modules ou contactez votre administrateur pour le résoudre. Une fois que tous les statuts des pods sont en cours d'exécution, réessayez d'installer le module complémentaire EKS HyperPod depuis la console Amazon SageMaker AI.

Pour plus de résolution des problèmes, consultez la section Résolution des problèmes liés au module complémentaire Amazon CloudWatch Observability EKS.

onglet Tâches

Si le message d'erreur indiquant que la définition de ressource personnalisée (CRD) n'est pas configurée sur le cluster s'affiche, accordez des autorisations EKSAdminViewPolicy et des ClusterAccessRole politiques à votre rôle d'exécution de domaine.

Politiques

La liste suivante répertorie les solutions aux erreurs liées aux politiques utilisant la console HyperPod APIs or.

  • Si la politique est activée CreateFailed ou si CreateRollbackFailed son statut est en vigueur, vous devez supprimer la stratégie ayant échoué et en créer une nouvelle.

  • Si le UpdateFailed statut de la politique est en cours, réessayez la mise à jour avec le même ARN de stratégie.

  • Si la stratégie est en UpdateRollbackFailed état, vous devez supprimer la stratégie qui a échoué, puis en créer une nouvelle.

  • Si la politique est activée DeleteFailed ou si DeleteRollbackFailed son statut est activé, réessayez de la supprimer avec le même ARN de stratégie.

    • Si vous avez rencontré une erreur en essayant de supprimer la priorisation de calcul, ou la politique de cluster, à l'aide de la HyperPod console, essayez de la supprimer à l'cluster-scheduler-configaide de l'API. Pour vérifier l'état de la ressource, rendez-vous sur la page de détails d'une allocation de calcul.

Pour en savoir plus sur l'échec, utilisez l'API de description.

Supprimer des clusters

Les solutions connues aux erreurs liées à la suppression de clusters sont répertoriées ci-dessous.

  • Lorsque la suppression du cluster échoue en raison des politiques de gouvernance des SageMaker HyperPod tâches associées, vous devez le faireSupprimer les politiques.

  • Lorsque la suppression du cluster échoue en raison de l'absence des autorisations suivantes, vous devez mettre à jour l'ensemble minimal d'autorisations de votre administrateur de cluster. Consultez l'onglet Amazon EKS dans la Utilisateurs IAM pour l'administrateur du cluster section.

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig